Python 基于 Bert 的中文情歌分析，多分类中文情感分析

🕗 发布于 2024-10-12 01:25 python bert 分类中文情感分析

前言

在自然语言处理（NLP）领域中，情感分析是一项非常常见的任务。它的目标是判断文本的情感倾向，例如在社交媒体上的评论、产品评价、电影评论等数据中，识别文本是正面的、负面的，还是中性的。与传统的二分类情感分析不同，许多应用场景下需要将情感分为更多类别，例如正面、负面和中性，这就是所谓的多分类情感分析。

本指南将带你一步步使用 BERT（Bidirectional Encoder Representations from Transformers）进行中文多分类情感分析。BERT 是目前最强大的预训练语言模型之一，能够处理复杂的自然语言任务。通过 BERT 的预训练模型，我们可以快速上手并进行模型微调，来完成情感分析任务。

在本文中，我们将使用开源的 ChnSentiCorp 数据集进行中文情感分析的多分类任务，包括数据清洗、模型训练、准确度评估以及模型导出等步骤。

在这里插入图片描述

中文情感分析的多分类任务简介

情感分析的分类

情感分析旨在分析文本中的情感倾向。在传统的情感分析任务中，通常是将情感分类为“正面”和“负面”两类。多分类情感分析则需要分类更多的情感类别，比如“正面”、“负面”、“中性”三类，甚至可以细化为不同的情感等级（如非常满意、满意、一般、差、非常差）。

多分类任务的复杂性较高，因为情感的表达形式和种类多样，模型需要能够从文本的上下文中理解更细腻的情感差异。

BERT 的优势

BERT 模型通过预训练在大规模文本语料上学习到了丰富的语言表示，能够在许多 NLP 任务中达到顶尖水平。BERT 的双向特性使得它能够同时从句子的左右两边理解语义，这使它在情感分析任务中表现出色。

步骤概览

环境准备：安装所需的 Python 库和工具。
加载中文 BERT 预训练模型：使用 Huggingface 提供的 bert-base-chinese 模型。
加载开源数据集 ChnSentiCorp：并进行数据清洗和预处理。
数据预处理：对文本进行分词、编码，并处理多分类标签。
训练模型：对 BERT 进行微调，训练多分类情感分析模型。
评估模型性能：在测试集上评估模型的准确度。
导出模型：保存训练好的模型，供以后使用或部署。

步骤 1：环境准备

首先，确保你的 Python 环境已经准备好。我们需要安装以下必要的库：

pip install torch transformers datasets scikit-learn

torch：PyTorch 库，用于深度学习模型的构建和训练。
transformers：Huggingface 的 Transformers 库，包含了 BERT 等多种预训练模型。
datasets：Huggingface 的数据集库，方便加载开源数据集。
scikit-learn：用于模型评估和准确度计算。

步骤 2：加载中文 BERT 预训练模型

Huggingface 提供了多个 BERT 预训练模型，我们可以直接使用 bert-base-chinese 模型，它已经在大量中文语料上进行了预训练，并且可以进一步微调来处理我们的情感分析任务。

from transformers import BertTokenizer, BertForSequenceClassification

# 加载 BERT 中文预训练模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3)

num_labels=3：表示我们要进行三类情感的分类（正面、负面、中性）。

步骤 3：加载 ChnSentiCorp 数据集并进行清洗

ChnSentiCorp 数据集简介

ChnSentiCorp 是一个常用的中文情感分析数据集，包含了大量的中文评论数据。每条评论都有一个情感标签，标签可以是正面（1）、负面（0）或中性（2）。这个数据集非常适合情感分析任务的训练和评估。

加载数据集

我们可以通过 Huggingface 的 datasets 库直接加载该数据集：

from datasets import load_dataset

# 加载 ChnSentiCorp 数据集
dataset = load_dataset('chinese_simplified_chnsenticorp')

加载后的数据集通常包括三个部分：train（训练集）、validation（验证集）和 test（测试集）。

数据清洗

为了确保数据的质量，我们可以清洗文本，去除不必要的标点符号和空格。

import re

# 定义数据清洗函数
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号
    text = text.strip()  # 去除前后空格
    return text

# 对数据集中的文本进行清洗
dataset = dataset.map(lambda x: {'text': clean_text(x['text'])})

步骤 4：数据预处理

BERT 模型需要特定格式的输入。我们需要将每条文本数据通过 BERT 的分词器进行分词，并转换为适合模型输入的格式。

def tokenize_function(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=128)

# 对数据集进行分词和编码
encoded_dataset = dataset.map(tokenize_function, batched=True)

padding='max_length'：将所有句子填充到最大长度，确保输入大小一致。
truncation=True：对于超长的句子进行截断，最大长度为 128。

接下来，我们确保数据集中的标签已被正确编码为整数形式。ChnSentiCorp 数据集中通常只有正面和负面标签，如果需要中性情感，可以扩展数据集或进行数据增强。

步骤 5：训练模型

使用 Huggingface 的 Trainer 接口，我们可以快速训练模型。首先，我们定义训练参数并开始训练。

from transformers import Trainer, TrainingArguments

# 定义训练参数
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    evaluation_strategy="epoch",
    logging_dir='./logs',
)

# 使用 Trainer 进行训练
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encoded_dataset['train'],
    eval_dataset=encoded_dataset['validation'],
)

# 开始训练
trainer.train()

num_train_epochs=3：模型将在数据集上训练 3 个轮次。
per_device_train_batch_size=16：每个设备的训练批次大小为 16。

训练过程大约需要 10-20 分钟，具体时间取决于你的计算资源（如 GPU）。

步骤 6：评估模型性能

训练完成后，我们在测试集上评估模型的表现，计算模型的准确度。

from sklearn.metrics import accuracy_score

# 定义评估函数
def compute_metrics(p):
    preds = p.predictions.argmax(-1)
    return {"accuracy": accuracy_score(p.label_ids, preds)}

# 在测试集上评估模型
trainer.evaluate(encoded_dataset['test'], metric_key_prefix="eval")

通过这个过程，我们可以查看模型在测试集上的准确度，通常会输出如下结果：

{'eval_loss': 0.2, 'eval_accuracy': 0.85}

在这个例子中，模型的准确度为 85%，表明它在多分类情感分析任务中表现良好。

步骤 7：导出模型

为了方便将来使用，我们可以将训练好的模型保存下来，并将分词器一并保存：

# 保存模型和分词器
model.save_pretrained('./sentiment_model')
tokenizer.save_pretrained('./sentiment_model')

保存后的模型可以在未来的情感分析任务中重新加载并使用。

总结

本文详细介绍了如何使用 BERT 模型进行中文情感分析的多分类任务。通过加载 BERT 预训练模型、加载开源数据集 ChnSentiCorp、进行数据清洗和预处理，我们训练了一个中文多分类情感分析模型，并在测试集上评估了模型的准确度。最后，我们将训练好的模型导出，供未来的使用或部署。

通过这篇文章，新手能够掌握如何使用 BERT 进行中文情感分析，并

可以根据自己的需要进一步微调模型。未来还可以尝试使用更大规模的数据集、数据增强技术和更复杂的模型架构（如 RoBERTa、ALBERT 等）来优化模型性能。

未来优化方向

尽管我们使用了 BERT 完成了多分类情感分析任务，以下几个方面可以进一步优化模型的表现：

扩展数据集：使用更多的中文情感数据集进行训练，提升模型的泛化能力。
数据增强：使用数据增强技术（如同义词替换、文本生成等）丰富训练数据，提升模型在不同场景下的表现。
调参实验：调整训练过程中的超参数（如学习率、批次大小、训练轮次等）以获得最佳性能。
更复杂的模型：尝试使用其他预训练模型（如 RoBERTa、ALBERT）以获得更好的表现。

原文地址：https://blog.csdn.net/JasonXu94/article/details/142864495

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：设备树pinctrl子系统
下一篇：KingbaseES数据库迁移-SHELL方式

开发指南072-图片热点
/处理跳转： area.getAttribute('href');平台支持使用图像导航界面，例如展示如下一张图，用户点击对应位置触发对应动作。热点数据通过后台接口获取（注意处理权限，没有权限的热点不生
阅读更多2024-10-13
使用机器学习边缘设备的快速目标检测
这项机器学习研究探讨了一种低成本的边缘设备，该设备与具有计算机视觉功能的嵌入式系统集成，以提高目标检测和分类的推理时间和精度。研究的主要目标是减少推理时间并降低功耗，以支持一个竞技型类人机器人的嵌入式
阅读更多2024-10-13
【Windows】【DevOps】Windows Server 2022 安装ansible，基于powershell实现远程自动化运维部署入门到放弃！
文件URL：https://www.python.org/ftp/python/3.13.0/python-3.13.0-amd64.exe。直接拿linux主机测试ansible连接windows
阅读更多2024-10-13
C# 中循环的应用说明
一循环的概念说明二、循环类型三、循环控制语句四、无限循环
阅读更多2024-10-13
Linux `vmstat` 命令详解
vmstat（Virtual Memory Statistics）是 Linux 系统中的一个监控工具，用于报告系统的虚拟内存、进程、CPU 活动等信息。它能帮助用户了解系统的整体性能状况，尤其是内存
阅读更多2024-10-13
Linux下多任务编程（网络编程2）
本文介绍解决accpet和recv相互阻塞的问题，可以用多线程并发外也可以用epoll I/O多路复用的方式解决。
阅读更多2024-10-13
[单master节点k8s部署]37.微服务（一)springCloud 微服务
微服务架构的一个重要特点是，它与开发中使用的具体或无关。每个微服务都可以使用最适合其功能需求的语言或技术来实现。例如，一个微服务可以用Java编写，另一个微服务可以用Python、Go、Node.js
阅读更多2024-10-13
Zynq(3)使用外设MIO/EMIO
使用MIO/EMIO实现流水灯，着重介绍Zynq IP核的配置，解读vitis中的c语言程序，介绍MIO与EMIO的区别。
阅读更多2024-10-13
笔试算法总结
思路很简单，但是当时做题提交的时候，通过率总是18%。不知道为啥，后面我改成了Long类型，然后就通过了全部用例。（易错1：第一次提交没考虑0的情况）使用 StringBuilder 模拟栈的行为，通
阅读更多2024-10-13
快速学习一个算法，Transformer模型架构
它的主要思想是在同一时间通过多个独立的注意力头（Attention Head）来关注序列中不同部分的信息，然后将这些信息综合起来，生成更丰富的表示。自注意力机制的目的是对输入序列中的每个元素计算一个输
阅读更多2024-10-13