【LLM论文日更】｜ BGE经典论文-CPACK

🕗 发布于 2024-10-11 19:19 人工智能 机器学习 算法 深度学习 语言模型

论文：https://arxiv.org/pdf/2309.07597
代码：GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs
机构：BAAI
领域：embedding model
发表：SIGIR 2024

研究背景

研究问题：这篇文章要解决的问题是如何显著推进中文通用文本嵌入领域的发展。具体来说，作者提出了C-Pack，一套资源包，包括三个关键资源：C-MTP（中文大规模文本对训练数据集）、C-MTEB（中文大规模文本嵌入基准）和BGE（BAAI通用嵌入模型家族）。
研究难点：该问题的研究难点包括：需要大规模、多样化的训练数据来提高嵌入模型的判别力；需要扩展模型规模和训练数据规模以提高模型的泛化能力；需要优化训练方法，包括预训练、对比学习和任务特定的微调；需要建立适当的基准来全面评估文本嵌入的通用性。
相关工作：该问题的研究相关工作有：Contriever、GTR、Sentence-T5、Sentence-Transformer、E5、OpenAI文本嵌入等。这些工作主要集中在英文场景下的通用文本嵌入，而中文领域的相关研究和资源较为匮乏。

研究方法

这篇论文提出了C-Pack来解决中文通用文本嵌入的问题。具体来说，

C-MTEB（中文大规模文本嵌入基准）：C-MTEB是MTEB的中文扩展，收集了35个公开可用的数据集，涵盖6种任务类型。通过标准化评估协议和建立评估管道，确保不同嵌入模型可以在公平的基础上进行评估。
C-MTP（中文大规模文本对训练数据集）：C-MTP由两部分组成：C-MTP（未标记）和C-MTP（标记）。C-MTP（未标记）来自大规模无标签网络语料库，如百度百科、知乎和新闻网站，共1亿对文本。C-MTP（标记）来自高质量标记数据集的整合，共83.8万对文本。数据经过过滤和语义过滤，确保文本对的语义相关性。
BGE（BAAI通用嵌入模型家族）：BGE基于BERT架构，提供三种模型规模：小型(0.24亿参数24M）、基础（1.02亿参数102M）和大型（3.26亿参数326M）。模型经过三个阶段训练：预训练、通用对比学习和任务特定微调。
训练方法：训练方法包括预训练、通用对比学习和任务特定微调。预训练使用Wudao语料库，采用MAE（masked autoencoder）风格的方法。通用对比学习在C-MTP（未标记）上进行，通过对比成对文本和其负样本进行学习。任务特定微调在C-MTP（标记）上进行，结合指令微调和硬负样本挖掘。

实验设计

实验设计包括以下几个方面：

数据收集：C-MTP（未标记）主要来自百度百科、知乎、新闻网站等大规模无标签网络语料库。C-MTP（标记）来自T2-Ranking、mMARCO-Zh、DuReader等高质量标记数据集。
样本选择：C-MTP（未标记）共1亿对文本，C-MTP（标记）共83.8万对文本。数据经过过滤和语义过滤，确保文本对的语义相关性。
参数配置：BGE模型提供三种规模：小型（2.4亿参数）、基础（1.02亿参数）和大型（3.26亿参数）。对比学习采用大批量（最大19200），以提高嵌入的判别力。

结果与分析

总体性能：BGE模型在C-MTEB上的平均性能显著优于现有中文文本嵌入模型，特别是在检索任务和STS任务上。大型模型的泛化能力最强，小型模型在保持较高性能的同时，更适合高通量应用。

数据集分析：C-MTP（未标记）对嵌入的检索质量有显著影响，而对其他任务的影响较小。C-MTP（标记）在检索、重排序、STS和成对分类任务上有显著提升。

训练方法分析：对比学习采用大批量显著提高了嵌入质量，特别是在检索任务上。指令微调显著提升了任务特定微调的质量，特别是在检索、STS、成对分类和重排序任务上。

总体结论

这篇论文提出了C-Pack，一套全面的资源包，用于推动中文通用文本嵌入领域的发展。C-Pack包括C-MTEB、C-MTP和BGE，并通过优化的训练方法实现了显著的性能提升。实验结果表明，BGE模型在C-MTEB上取得了最先进的性能，验证了C-Pack的有效性和实用性。C-Pack的发布为中文通用文本嵌入的开发、评估和应用提供了坚实的基础，推动了该领域的进一步发展。

论文评价

优点与创新

C-MTEB基准：建立了C-MTEB，作为C-MTEB的中国扩展，收集了35个公开数据集，涵盖6种任务类型，并标准化了评估协议和管道。
C-MTP训练数据：创建了一个包含1亿对文本的大规模训练数据集，主要来源于网络语料库，并通过语义过滤和数据清理策略提高了数据质量。
BGE模型系列：提供了一组预训练的中文通用文本嵌入模型，包括小（24M参数）、基础（102M参数）和大（326M参数）三种规模，显著提升了模型在C-MTEB上的表现。
训练方法：整合并优化了训练方法，包括嵌入导向的预训练、通用对比学习和任务特定的微调，帮助社区复现最先进的模型并进行持续改进。
英文数据集：除了中文数据集外，还发布了英文文本嵌入的数据集，并且英文模型在英文MTEB基准上达到了最先进的表现。
广泛认可：项目在技术社区中广受欢迎，BGE模型系列自发布以来在HuggingFace上获得了超过2000万的下载量，并被多个主要的RAG和文本嵌入框架集成。

不足与反思

数据集规模和质量：尽管C-MTP是无标签数据集的主要来源，但其规模和质量仍需进一步提高，以更好地支持嵌入模型的训练。
模型微调：尽管任务特定的微调显著提升了模型性能，但如何更有效地利用不同类型的标注数据进行微调仍需进一步研究。
对比学习：虽然使用了大批量的对比学习，但如何进一步优化负样本的选择和生成策略仍需探索。
多任务学习：多任务学习策略在一定程度上缓解了不同任务之间的冲突，但仍需进一步研究如何平衡不同任务的训练效果。

关键问题及回答

问题1：C-MTEB基准是如何构建的？其主要目的是什么？

C-MTEB（Chinese Massive Text Embedding Benchmark）是MTEB（Massive Text Embedding Benchmark）的中文扩展。其主要目的是建立一个全面评估中文文本嵌入通用性的基准。C-MTEB通过以下步骤构建：

数据收集：收集了35个公开可用的中文数据集，这些数据集涵盖了检索、重排序、语义文本相似度（STS）、分类、对分类和聚类等6种任务类型。
标准化评估协议：为了确保不同嵌入模型可以在公平的基础上进行评估，C-MTEB设立了标准化的评估协议。
评估管道：建立了评估管道，使得不同任务类型的评估可以自动化进行，并便于结果的提交和比较。

通过这些步骤，C-MTEB能够全面测量中文嵌入模型在不同任务上的表现，从而提供一个可靠的评估平台。

问题2：C-MTP训练数据集是如何构建的？其组成和规模如何？

C-MTP（Chinese Massive Text Pairs）训练数据集由两部分组成：C-MTP（未标记）和C-MTP（标记）。

C-MTP（未标记）：主要来自大规模无标签语料库，如百度百科、知乎和新闻网站，共1亿对文本。这些数据通过从网页中提取标题-正文、副标题-段落、问题-答案等结构形成文本对。数据经过一般过滤和语义过滤，以确保文本对的语义相关性。
C-MTP（标记）：集成了多个高质量的标记数据集，如T2-Ranking、DuReader和NLI-Zh，共838,465对文本。这些数据主要用于进一步增强训练数据的质量。

总体来看，C-MTP（未标记）提供了大规模的无标签数据，而C-MTP（标记）则提供了高质量的标注数据，两者共同用于训练和微调文本嵌入模型。

问题3：BGE模型是如何训练的？其训练过程包括哪些主要阶段？

BGE（BAAI General Embeddings）模型基于BERT架构，提供三种模型规模：小型（24M参数）、基础（102M参数）和大型（326M参数）。其训练过程包括以下主要阶段：

预训练：使用Wudao语料库进行预训练，采用MAE（Masked Autoencoder）风格的方法。预训练的目标是将污染文本编码成其嵌入，并在其上恢复干净文本。
通用对比学习：在C-MTP（未标记）数据集上进行对比学习，通过大规模无标签数据集学习区分正样本和负样本。
任务特定微调：在C-MTP（标记）数据集上进行任务特定的微调。微调过程中结合了指令微调和硬负样本挖掘。指令微调通过为每个文本对附加任务特定的指令来帮助模型适应不同任务。

通过这三个阶段的训练，BGE模型能够在各种任务上实现高性能。

原文地址：https://blog.csdn.net/qq_59084968/article/details/142789688

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：第二十一章基于随机森林气温预测
下一篇：生成你想要的测试数据，除了用这6款工具，还能用AI

C# 引用相等性与值相等性
引用相等性指两个对象引用均引用同一基础对象。值相等性指两个对象包含相同的一个或多个值。对记录来说，值相等性是指如果记录类型的两个变量类型相匹配，且所有属性和字段值都相同，那么记录类型的两个变量是相等
阅读更多2024-10-14
C++菱形继承与虚继承
菱形继承问题是由于不合理的多继承引起的，B和C都继承自A，而D同时继承B和C，导致D中存在两份A的数据。
阅读更多2024-10-14
本地启动SpringBoot服务报数据库连接失败的错
项目，本人从远程仓库 clone 下来之后，想着先本地启动下服务瞅一眼能不能正常启动。因为我本地的MYSQL数据库版本是8.0，而这个新服务的。程序员不就是生产BUG，修复BUG的碳基生物嘛。结果很不
阅读更多2024-10-14
yjs13——pandas数据离散化+数据表的合并
在 Pandas 中，（也称为或）是将连续数据转换为离散数据的过程。换句话说，就是把一个范围连续的数值型数据，根据一定的规则划分成多个区间（或称为"箱"），并将每个数据点映射到对应
阅读更多2024-10-14
C++ AVL树
AVL树：二叉搜索树虽然可以缩短查找的效率，但**如果数据有序或接近有序二叉搜索树将退化为单支树，查找元素相当于在顺序表中搜索元素，效率低下。当向二叉搜索树中插入新结点后，如果能保证每个结点的左右子树
阅读更多2024-10-14
【工具变量】破产法庭设立数据（省级及地级市城市均有）2010-2023年
参考顶刊《经济研究》胡诗阳（2023）老师的做法，为了提高破产审判司法执行效率，２０１８年１１月中央全面深化改革委员会第五次会议审议通过了《加快完善市场主体退出制度改革方案》，对该领域的制度改革
阅读更多2024-10-14
vmware虚拟机报错：客户机操作系统已禁用 CPU，请关闭或重置虚拟机的解决方法
打开cpu虚拟化全部进行勾选。ctrl + e 进行关机。
阅读更多2024-10-14
echart 采坑记录
1、刷新数据的时候使用setOptionmyChart.setOption(option,true); 第二个参数为true才会刷新数据2、react引入ehcart，
阅读更多2024-10-14
深度学习模型新手入门指南
深度学习是一种基于人工神经网络的机器学习技术，尤其是深层神经网络。它模拟生物大脑中神经元的连接结构，通过多层非线性变换从数据中学习抽象特征。通过本指南，我们对深度学习的基本概念、模型构建以及训练方法有
阅读更多2024-10-14
尚硅谷rabbitmq2024 工作模式路由篇第11节答疑
RabbitMQ 提供了多种类型的交换机（如 `direct`、`fanout`、`topic` 等），每种交换机都有不同的消息路由规则。例如，日志系统中可以用不同的路由键来区分不同级别的日志消息（如
阅读更多2024-10-14