自学内容网 自学内容网

大语言模型安全威胁

文章目录

基座安全

一、大模型训练阶段

(1)训练环境安全风险

  • 模型开发工具漏洞
  • 训练数据管理系统漏洞

(2)训练环境隔离缺陷

二、大模型部署阶段

(1)利用不安全系统配置

  • 环境隔离缺陷
  • 云平台多租户隔离失效

(2)CI&CD流程攻击

  • 模型部署服务漏洞
  • 模型镜像污染

(3)部署环境组件供应链漏洞

  • 容器&&集群系统漏洞
  • 向量数据库漏洞
  • 云平台安全漏洞

三、大模型应用阶段

(1)容器集群环境探测

(2)容器集群环境攻击

  • 代码解析器执行逃逸

(3)LLMs拒绝服务&资源耗尽

数据安全

一、大模型训练阶段

(1)内部数据保护缺陷

  • 个人隐私数据保护缺陷
  • 企业敏感数据保护缺陷
  • 机密敏感数据保护缺陷

(2)不正确&恶意外部数据源

  • 预训练模型数据偏见

(3)训练数据投毒

  • 对话语料投毒
  • 训练数据篡改

二、大模型部署阶段

(1)备份数据窃取

(2)数据传输劫持

(3)数据存储服务攻击

(4)日志和审计记录窃取

(5)缓存数据&索引信息窃取

三、大模型应用阶段

(1)元Prompt泄露

  • 假定场景泄露
  • 假定角色泄露
  • 关键字前后定位泄露

(2)模型反演攻击

  • 触发模型异常
  • 训练数据推导

(3)隐私数据窃取

  • 个人隐私数据窃取
  • 企业机密数据窃取

(4)模型推理API数据窃取

(5)成员推断攻击

(6)API信息泄露

模型安全

一、大模型训练阶段

(1)模型后门

  • 模型序列化后门
  • 预训练模型投毒

(2)预训练模型不安全依赖

二、大模型部署阶段

(1)模型文件窃取

(2)模型参数篡改

三、大模型应用阶段

(1)模型越狱攻击

  • DAN(Do Anything Now)
  • Many-shot越狱
  • 假定场景越狱
  • 假定角色越狱
  • 对抗性后缀攻击
  • 概念激活攻击

(2)模型幻觉风险

  • 事实性幻觉
  • 忠实性幻觉

(3)非合规内容输出

  • 虚假信息生成
  • 诱导&&不当言论
  • 带有偏见、仇恨、歧视或侮辱问题
  • 恐怖主义&&带有暴力倾向
  • 政治&&军事敏感问题
  • 敏感数据泄露

(4)商业违法输出

  • 知识产权版权侵犯

(5)模型功能滥用

  • 恶意代码生成
  • 钓鱼邮件生成
  • 图片信息伪造
  • 音频信息伪造
  • 视频信息伪造

(6)预训练模型信息窃取与攻击

  • 预训练模型家族探测
  • 预训练模型本体探测
  • 代理预训练模型创建
  • 对抗样本攻击

(7)数据漂移

应用安全

一、大模型训练阶段

(1)第三方组件漏洞

  • 数据处理组件漏洞
  • RAG开发框架漏洞

(2)不安全的代码实践

  • LLMs插件:不安全输入处理
  • LLMs应用传统漏洞风险
  • LLMs应用不安全输出处理
  • LLMs插件:业务过度代理

二、大模型部署阶段

(1)LLMs应用源代码窃取

(2)LLMs应用源代码投毒

三、大模型应用阶段

(1)Prompt注入

(2)间接Prompt注入

  • XSS会话内容劫持
  • 环路Agent蠕虫
  • 应用对话Memory攻击

(3)业务应用API利用

  • SSRF模型环境探测
  • 代码执行注入

(4)CoT注入攻击

  • 思维链干扰注入
  • 思维链操纵注入

(5)关键字混淆

  • 同义词替换攻击

(6)对抗编码攻击

(7)反向诱导&抑制攻击

身份安全

一、大模型训练阶段

(1)训练环境缺少认证授权

(2)训练环境过度权限分配

(3)LLMs插件:权限管控设计缺陷

二、大模型部署阶段

(1)滥用部署环境凭据

  • 公开服务API密钥利用

(2)向量数据库未授权访问

(3)未授权访问模型部署环境

三、大模型应用阶段

(1)角色逃逸

  • 假定场景逃逸
  • 假定角色逃逸
  • 遗忘法角色逃逸
  • Prompt目标劫持

(2)权限管控不当

  • 未授权访问模型
  • 利用云凭证非法访问云端模型
  • 账户越权访问

(3)模拟对话攻击

(4)应用会话劫持

(5)账户劫持风险


原文地址:https://blog.csdn.net/weixin_43747691/article/details/143597037

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!