论文总结：A Survey on Evaluation of Large Language Models-鲁棒性相关内容

🕗 发布于 2024-07-26 09:21 语言模型 人工智能 自然语言处理

A Survey on Evaluation of Large Language Models

在这里插入图片描述

3.2.1 Robustness鲁棒性：两方面考察(分布外泛化OOD+对抗鲁棒性)、评估ChatGPT(AdvGLUE+ANLI+DDXPlus+AdvGLUE++，PromptBench基准)、两方面脆弱(语言输入的对抗性提示+视觉输入)
评估系统面对意外输入的稳定性是鲁棒性研究的核心，主要从对抗鲁棒性和出分布泛化两方面考察大语言模型，发现当前模型对对抗性提示和视觉输入显著脆弱，提示模型在部署中面临安全隐患，需要继续提高模型的鲁棒性。

鲁棒性研究系统在面对意外输入时的稳定性。

具体来说，分布外(out- distribution, OOD) (Wang et al.， 2022)和对抗性鲁棒性是鲁棒性的两个热门研究课题。Wang等人(2023c)是一项早期工作，使用AdvGLUE (Wang等人，2021)、ANLI (Nie等人，2019)和DDXPlus (Fansi Tchango等人，2022)数据集等现有基准，从对抗性和OOD角度评估了ChatGPT和其他LLMs。卓等人(2023b)评估了语义解析的鲁棒性。Yang等人(2022)通过扩展GLUE (Wang等人，2018)数据集来评估OOD的鲁棒性。本研究的结果强调了当操纵视觉输入时对整个系统安全的潜在风险。

对于视觉语言模型，Zhao等人(2023b)对视觉输入上的LLMs进行了评估，并将其转移到其他视觉语言模型上，揭示了视觉输入的脆弱性。

Li等人(2023b)概述了语言模型的OOD评估:对抗性鲁棒性、领域泛化和数据集偏差。作者对三个研究线进行了比较和统一，总结了每个研究线的数据生成过程和评估方案，并强调了未来工作的挑战和机遇。

对于对抗鲁棒性，朱等人（2023）通过提出一个名为PromptBench的统一基准，评估了LLM对提示的鲁棒性。他们全面评估了多个级别（字符、单词、句子和语义）的对抗性文本攻击。结果表明，当面对对抗性输入时，现代LLM容易受到对抗性提示的攻击，强调了模型的鲁棒性的重要性。至于新的对抗性数据集，王等人（2023a）引入了AdvGLUE++基准数据集来评估对抗鲁棒性，并实施了一个新的评估协议，通过越狱系统提示来审查机器道德。

原文地址：https://blog.csdn.net/WhiffeYF/article/details/140691551

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等
下一篇：【自然语言处理】概论（一）：自然语言处理概要

excel如何快速选中某个数字或者某串数字
鼠标光标放在某个数字或者某串数字的末尾，进行双击鼠标左键即可（就会选中当前鼠标光标前相邻的所有数字）：
阅读更多2024-09-17
面试官问：请描述一次你成功解决问题的经历？
面试官为什么要这么问？面试官问你描述一次成功解决问题的经历，主要是为了评估你的几个关键方面：问题解决能力：了解你在面对挑战时的思维方式和应对策略。决策能力：考察你在压力下做出明智决定的能力。沟通技巧：
阅读更多2024-09-17
VLMEvalKit 评测实践:InternVL2 VS Qwen2VL
多模态技术的突破，正在改变我们理解和交互世界的方式。无论是强大的感知能力、复杂的推理分析，还是图文融合的创新应用，InternVL2 与 Qwen2-VL 展现了大模型的无限可能。
阅读更多2024-09-17
mybatis开启日志
步骤很详细，直接上教程……
阅读更多2024-09-17
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
阅读更多2024-09-17
Blender渲染太慢怎么办？blender云渲染已开启
此次，渲染101云渲染农场正式加入了对Blender的全面支持，涵盖Blender的所有版本，不论是较新的Blender 4.0还是早期版本，都可轻松对接渲染101平台服务。不论是小型独立项目还是大型
阅读更多2024-09-17
ubuntu安装mysql 8.0忘记root初始密码，如何重新修改密码
修改my.cnf文件，在文件新增 skip-grant-tables，在启动mysql时不启动grant-tables，授权表。5.注释掉skip-grant-tables后重启mysql。2、修改m
阅读更多2024-09-17
JVM面试真题总结（十一）
总的来说，Java内存模型主要解决了多线程环境下共享数据的一致性、可见性等问题，是Java并发编程的基础。这种模型的好处是，由于启动类加载器是最顶部的加载器，因此它加载的都是最可信任的类库（Java的
阅读更多2024-09-17
Ubuntu 软件仓库镜像使用帮助
选择镜像。
阅读更多2024-09-17
用于稀疏自适应深度细化的掩码空间传播网络 CVPR2024
图像引导的深度补全是一项通过利用稀疏深度测量和RGB图像来估计密集深度图的任务；它通过估算深度来填充未测量的区域。由于许多深度传感器（如LiDAR和飞行时间相机（ToF））只能提供稀疏的深度图，这项任
阅读更多2024-09-17

论文总结：A Survey on Evaluation of Large Language Models-鲁棒性相关内容

相关文章