微软:LLM数据构建管道RedStone
📖标题:RedStone: Curating General, Code, Math, and QA Data for Large Language Models
🌐来源:arXiv, 2412.03398
🌟摘要
🔸人们普遍认为,在高质量、精心策划的数据集上对大型语言模型(LLM)进行预训练对于提高其性能和泛化能力至关重要。本研究探讨了Common Crawl作为预培训LLM的全面而灵活的资源的未开发潜力,解决了通用语言理解和专业领域知识的问题。
🔸我们介绍REDSTONE,这是一种创新且可扩展的管道,旨在从Common Crawl中提取和处理数据,从而促进创建广泛而多样的预训练数据集。与传统数据集不同,传统数据集通常需要昂贵的管理和特定领域的专业知识,REDSTONE利用Common Crawl的广度来提供针对广泛领域量身定制的数据集。在这项工作中,我们通过在多个领域构建预训练数据集来证明其能力,包括一般语言理解、代码、数学和问答任务。REDSTONE的灵活性允许轻松适应其他专业领域,大大降低了创建有价值的特定领域数据集的障碍。
🔸我们的研究结果表明,当通过REDSTONE等有效渠道利用Common Crawl时,它可以作为丰富的、可再生的预训练数据来源,为LLM中的领域适应和知识发现开辟新的途径。这项工作还强调了创新数据采集策略的重要性,并强调了网络规模数据作为LLM持续发展的强大资源的作用。RedStone代码和数据样本将在以下网址公开:https://aka.ms/redstone.
🛎️文章简介
🔸研究问题:如何从Common Crawl中高效提取和过滤大规模、多样化数据集的问题,以支持大语言模型(LLM)的训练和性能提升?
🔸主要贡献:论文提出了REDSTONE管道,成功构建了包含3.48万亿令牌的大规模数据集,显著提升了LLM在常识推理、代码生成、数学推理和问答任务中的表现。
📝重点思路
🔸数据提取与过滤模块:REDSTONE管道由提取和过滤两个核心模块组成,分别负责从Common Crawl中提取原始数据并进行精细过滤。
🔸通用领域数据处理:通过Trafilatura工具过滤网页非核心内容,确保提取的文本质量高、噪声少。
🔸领域特定数据处理:针对代码、数学和问答数据,设计了专门的过滤和提取流程,如使用正则表达式和机器学习模型识别代码片段和数学公式。
🔸模型训练与评估:使用提取的数据集训练LLMs,并在多个基准测试(如ARC-e、HumanEval、GSM8k等)上评估模型性能。
🔎分析总结
🔸REDSTONE-Web:在常识推理任务中表现优异,显著优于其他开源数据集。
🔸REDSTONE-Code:在代码生成基准测试(如HumanEval和MBPP)中显著提升了模型性能。
🔸REDSTONE-Math:在数学推理基准测试(如GSM8k和MATH)中表现优于现有数据集。
🔸REDSTONE-QA:在问答任务(如MMLU基准测试)中取得了最高分数,证明了管道在提取高质量数据方面的有效性。
💡个人观点
论文的核心是提出了REDSTONE管道,整合和优化现有数据处理步骤,构建了大规模、高质量的通用和领域特定数据集。
🧩附录
原文地址:https://blog.csdn.net/weixin_46739757/article/details/144751967
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!