CMACD:首个融合用户个性特征(MBTI)和六种情感及微情感的强度标签的中文情感计算数据集。
2024-11-12,北京理工大学信息与电子学院和中国电子工程设计研究院有限公司共同创建了首个融合个性与情绪强度标签的中文情感计算数据集(CMACD)。这个数据集不仅填补了中文情感数据集的空白,还为心理学、教育、市场营销、金融和政治等领域的研究提供了宝贵的数据支持,推动了机器对复杂人类情感的识别能力。
数据集地址:CMACD|情感计算数据集|社交媒体分析数据集
一、研究背景:
情感和个性是理解人类心理状态的核心要素。情感反映了个体的主观体验,而个性揭示了相对稳定的行为和认知模式。现有的情感计算数据集通常分别标注情感和个性特征,缺乏对微情感和情感强度的细粒度标注。此外,中文情感数据集极为稀缺,捕捉中文用户个性特征的数据集更是有限。
目前遇到困难和挑战:
1、中文情感数据集的稀缺性,尤其是包含个性特征的数据集。
2、现有数据集在单标签和多标签分类中缺乏对微情感和情感强度的细粒度标注。
3、手动标注过程成本高,容易受到主观偏见的影响,尤其是在缺乏情感强度水平的微情感标注方面。
数据集地址:CMACD|情感计算数据集|社交媒体分析数据集
二、让我们一起来看一下CMACD 数据集
CMACD是首个整合了用户个性特征(MBTI)和六种情感及微情感的数据集,每个情感都标注了强度水平。
CMACD数据集从微博平台收集数据,筛选了11,338名有效用户,获取了566,900篇帖子及用户的MBTI个性标签。使用EQN方法,编制了一个多标签的中文情感计算数据集,整合了相同用户的六种情感和微情感,每个情感都标注了强度水平。
数据集构建:
数据集的构建包括手动收集具有自我个性类型的用户及其帖子,数据过滤和清洗(包括用户隐私保护)以创建MBTI数据集。然后,使用基于BERT模型的EQN框架对每个微博帖子进行多情感强度标注。
数据集特点:
CMACD数据集是首个将个性和情感统一于单个数据集中的中文数据集。它代表了基于在线用户数据的首个大规模中文个性特征数据集。此外,CMACD是首个实现机器标注的宏观情感和微情感的数据集。
研究人员可以通过电子邮件申请使用CMACD数据集。数据集的存储结构是分层的,文件夹按16种MBTI个性类型命名,每个文件夹包含对应个性类型的用户CSV文件。每个用户的CSV文件包含50行,代表用户的50篇微博帖子,其他列提供多标签情感标注,每个帖子分配相应的情感分数。
基准测试:
为了验证CMACD数据集的可用性和有效性,研究者们使用多种经典算法和深度学习模型进行了个性分类和情感分类测试。测试结果表明,不同的算法和模型在数据集上表现出不同的分类能力,从而验证了数据集的有效性和适应性。
CMACD中的用户缩影。这是CMACD中一个用户的快照,图中的数字代表情感的强度。
创建CMACD数据集的工作流程
与不同MBTI个性类型对应的流行网络表达方式。
在CMACD数据集中,多标签情感标注的实施过程是一个将机器学习和自然语言处理技术结合起来的复杂任务
三、展望数据集的应用场景:
比如,我是一个一名市场营销专家。
我们刚推出了一款新的果味苏打水,包装得挺时尚,口味也是精心调配的。我想要了解消费者对这款新饮料的真实感受,以便调整广告策略或者产品配方。
一般情况下,我可能得等上几周,收集问卷调查,或者看看零售商的反馈,这些信息来得慢,而且不一定能全面反映消费者的想法。
但现在,有了CMACD数据集训练出的系统,我可以这么做:
-
系统部署:首先,我请技术团队用CMACD数据集训练了一个情感分析系统,这个系统能够识别和量化微博帖子中的情绪强度。
-
实时监控:系统一旦部署好,它就开始实时监控微博上的帖子,自动抓取提到我们品牌和这款新苏打水的相关内容。
-
情绪分析:系统会分析这些帖子的情绪,比如“这款新口味真是清爽,夏日解暑必备!”可能会被系统识别为高度正面情绪;而“这苏打水味道太甜了,不太喜欢。”可能被识别为负面。
-
数据可视化:我每天上班第一件事,就是查看系统生成的情绪分析报告。报告里会显示正面和负面帖子的比例,还有情绪强度的分布图。比如,我可能会看到,虽然大部分人觉得饮料很清爽,但也有一部分人觉得太甜。
-
策略调整:根据这些实时反馈,我决定要对产品做一些微调,比如降低甜度,或者推出一些不那么甜的新口味。同时,你也调整了广告策略,更多强调饮料的清新和解渴特性,来吸引那些觉得饮料太甜的消费者。
-
促销活动:我还发现,很多人在提到这款饮料时,会用“派对必备”这样的词。于是我决定在社交媒体上发起一个夏日派对主题的促销活动,鼓励大家分享他们的派对照片,如果照片中有你们的苏打水,就有机会赢取礼品。
-
跟踪效果:活动上线后,我继续用情感分析系统来跟踪帖子的情绪变化,看看新策略是否有效。如果消费者的情绪反应积极,那就说明策略奏效了;如果还是有很多负面反馈,那就得再想想别的招。
有了CMACD数据集的帮助,我的工作变得更有针对性,反应也更迅速了。我可以根据消费者的真实反馈来调整产品和营销策略,而不是凭感觉或者等待慢吞吞的传统市场调研结果。这样一来,我的营销活动就更有可能打动消费者的心,也更有可能成功。
查找更多公开数据集,请打开:遇见数据集
原文地址:https://blog.csdn.net/u011559552/article/details/143762773
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!