【神经网络与深度学习】文本情感分类

abutu999

于 2024-04-15 18:47:25 发布

阅读量900

点赞数 6

CC 4.0 BY-SA版权

分类专栏：深度学习与神经网络文章标签：深度学习神经网络分类

本文链接：https://blog.csdn.net/vox520/article/details/137718575

本文介绍了如何使用AclImdb数据集进行情感二分类任务，包括数据预处理（如去除特殊字符和标准化文本），使用`Word2Sequence`类将文本转换为数字序列，以及构建一个简单的全连接模型进行情感预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据准备

AclImdb – v1 Dataset 是用于二进制情绪分类的大型电影评论数据集，其涵盖比基准数据集更多的数据，其中有 25,000 条电影评论用于训练，25,000 条用于测试，还有其他未经标记的数据可供使用。

数据预处理和数据装载

import re

from torch.utils.data import DataLoader
from torch.utils.data import Dataset
import os

def tokenization(content):
    content = re.sub("<.*?>"," ",content)
    fileters = ['\t','\n','\x97','\x96','#','%','$','&',"\.","\?","!","\,"]
    content = re.sub("|".join(fileters)," ",content)
    tokens = [i.strip().lower() for i in content.split()]
    return tokens

def collate_fn(batch):
    """

    :param batch:( [tokens, labels], [tokens, labels])
    :return:
    """
    content, label  = list(zip(*batch))
    return content,label

class ImdbDataset(Dataset):
    def __init__(self, train=True):
        self.train_data_path = '..\\aclImdb\\train\\'
        self.test_data_path = '..\\aclImdb\\test\\'
        data_path = self.train_data_path if train else self.test_data_path
        #把所有文件名放入列表
        temp_data_path = [os.path.join(data_path,"pos"), os.path.join(data_path+"neg")]
        print(temp_data_path)
        self.total_file_path = []

最低0.47元/天解锁文章