书生·浦语大模型第二期实战营第七节-OpenCompass 大模型评测实战笔记和作业

🕗 发布于 2024-04-28 16:29 语言模型

来源：

视频教程：https://www.bilibili.com/video/BV1Pm41127jU/?spm_id_from=333.788&vd_source=f4a51f7f5a63e756f73ad0dff318c1a3

文字教程：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md

作业来源：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md

1. OpenCompass 大模型评测

1.1 如何通过能力评测促进模型发展

面向未来，拓展能力维度：大模型学习人的能力，目前的上限是人的想象力上限，设计数学、推理、代码、智能体等各种维度来评测模型性能。
聚焦垂直行业：大模型在通用领域已经能达到不错的效果，但是在医疗金融法律等需要高精的专业领域，需要更加规范的内容来评估模型的行业适用性。
中文基准：目前全球社区大模型生态以英文为主，通过针对中文场景设计相关评测基准，来促进中文社区的大模型发展。
能力评测反哺能力迭代：通过评测，发现模型不足，针对性提升。

1.2 大语言模型评测中的挑战

全面性：

评测需要综合考量模型在不同维度上的表现，包括语言理解、知识应用、逻辑推理、创造力等。同时，还应考虑模型在特定垂直行业如医疗、金融、法律等领域的专业能力，以及其对新情境的适应性和学习能力。
评测成本：

大模型的评测往往涉及大规模的计算资源和数据集，这导致评测成本显著增加。另外，为了获得全面的评测结果，除了客观的打分题目，还有基于人工打分的主观评测，进一步增加了时间和经济成本。
数据污染：

数据污染指的是评测数据被加入到模型的训练数据中，需要可靠的数据污染检测技术和动态调节的评测基准，来获得真实客观的评估结果。
鲁棒性：

评测大模型时，需要检验其在面对变化的提示词输入的鲁棒性，设计针对鲁棒性的评测数据，例如挖掘大模型的bias（针对顺序的bias、针对长短文本的bias等），在多次采样下评估模型的性能。

1.3 如何评测大模型

基座模型：海量数据无监督训练（Base）

对话模型：指令数据有监督微调（SFT）、人类偏好对齐（RLHF）

1.4 提示词工程

构建评测集需要对提示词有较高的要求，避免引入评测结果偏差，下面是一些例子，例如文本语义要明确，具体细节，迭代反馈、few-shot、思维链等一些prompt工程化技巧：

1.5 大模型评测全栈工具链

1.6 评测基准

MathBench：多层次数学能力评测基准，包括不同的难度，不同的语言。还包括循环评估，可以消除大模型对答案顺序的bias。

CriticBench：多维度LLM反思能力评估基准

T-Eval：大模型细粒度工具能力评测基准

F-Eval：大模型基础能力评测基准

CreationBench：多场景中文创作能力评测标准

CIBench：代码解释能力评测标准

OpenFinData：全场景金融评测基准

LawBench：大模型司法能力基准

MedBench ：中文医疗大模型评测基准

SecBench：网络安全评测基准

2. 作业-使用 OpenCompass 评测 internlm2-chat-1_8b 模型

命令行

python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

python run.py
--datasets ceval_gen \
--hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace 模型路径
--tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace tokenizer 路径（如果与模型路径相同，可以省略）
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \  # 构建 tokenizer 的参数
--model-kwargs device_map='auto' trust_remote_code=True \  # 构建模型的参数
--max-seq-len 1024 \  # 模型可以接受的最大序列长度
--max-out-len 16 \  # 生成的最大 token 数
--batch-size 2  \  # 批量大小
--num-gpus 1  # 运行模型所需的 GPU 数量
--debug

protobuf报错

解决方案：

pip install protobuf

评测

原文地址：https://blog.csdn.net/aaaccc444/article/details/138162034

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：集成学习算法学习笔记
下一篇：vim之将文件的内容追加到当前文件的尾部

【无标题】
在 Android 中使用单例模式时，生命周期和内存管理需要格外注意，因为 Android 应用的生命周期受到系统的严格管理。单例对象持有短生命周期 Context 或其他 UI 元素的引用（如 Ac
阅读更多2024-11-07
Java 中的 try-with-resources 详解
在 Java 7 之前，处理资源关闭通常使用 `try-catch-finally` 块。虽然这种方式可以确保资源被正确关闭，但代码显得冗长且容易出错。Java 7 引入了 `try-with-res
阅读更多2024-11-07
FTP、ISCSI、CHRONY、DNS、NFS、DOCKER、MARIADB、NGINX、PHP、CA各服务开启方法
SCSI 配置通常涉及磁盘管理和硬件设备设置。如果有特定的 SCSI 配置需求，可以编辑 /etc/fstab 来挂载 SCSI 磁盘，或者根据需求安装相关驱动程序。配置文件位于 /etc/named
阅读更多2024-11-07
服务器开放了mongodb数据库的外网端口，但是用mongodbCompass还是无法连接。
数据库的配置文件中有个bingIp也就是绑定固定的ip才能访问数据库，默认是127.0.0.1也就是只能本地访问，所以无法连接。设置为0.0.0.0则表示所有地址都能访问。最后再确定一下防火墙的端口是
阅读更多2024-11-07
rclone 挂载是否会占用服务器的存储
直接挂载：不会占用服务器的存储空间。使用缓存：会占用服务器的存储空间，具体占用量取决于缓存配置。使用缓冲：会占用服务器的存储空间，具体占用量取决于缓冲配置。日志和临时文件：会占用少量的存储空间。文件系
阅读更多2024-11-07
HarmonyOS Next（鸿蒙星河版）侧载应用
仅需登录华为账号, 开启手机开发者模式和usb调试，即可安装任意hap应用 (tip: 必须保持开发者模式才能正常使用哦)这个版本支持无线安装哦！github找到了个项目。
阅读更多2024-11-07
MyBatis-Plus条件构造器：构建安全、高效的数据库查询
MyBatis-Plus 提供了一套强大的条件构造器（Wrapper），用于构建复杂的数据库查询条件。
阅读更多2024-11-07
反射一般在哪些场景中使用
反射机制在Java等语言中允许在运行时动态地获取类的信息、调用方法、访问属性等，主要用于以下场景
阅读更多2024-11-07
Mybatis基于注解的关系查询
以案例说明基于注解的关系查询。
阅读更多2024-11-07
马斯克押宝特朗普连任后的AI技术新格局猜想
马斯克助力特朗普连任后的AI技术格局,呈现出深度整合、跨领域创新、国际竞争加剧的特点。既抱着期待的心情希望AI的发展越来越好，同时作为老美最大的竞争者，咱们也得咬牙跟进。不过我想咱们的国家队也会大力扶
阅读更多2024-11-07

书生·浦语大模型第二期实战营第七节-OpenCompass 大模型评测实战 笔记和作业