360智脑张向征：共建可信可控AI生态应对大模型安全挑战

🕗 发布于 2024-12-14 12:59 人工智能 安全

发布 | 大力财经

人工智能的加速发展，有力推动了社会的数智化转型；与此同时，带来的相关安全风险也日益凸显。近日，在北京市举办的通明湖人工智能开发与应用大会上，360智脑总裁张向征以“大模型安全研究与实践”为主题，向业界分享了大模型安全领域的最新研究成果和实践经验。

张向征表示，大模型是数智化时代的重要基础设施，其应用贯穿众多行业和领域，但伴随而来的安全挑战同样不容忽视。大模型的开发、训练、推理和应用涉及复杂的软件生态系统，这一过程中，数据泄露、模型投毒、提示注入攻击、幻觉问题等安全隐患贯穿始终。张向征强调，保障大模型安全，不仅是维护企业利益的关键，更是确保社会公共安全的必要举措。

张向征提出，大模型安全面临四大核心挑战：大模型软件生态系统安全、内容安全、幻觉问题和Agent流程可控。针对这些挑战，360智脑团队基于多年安全研究积累，提出了一套完整的安全防护体系，包括全链路检测、防护、攻击与测评的闭环流程。

在大模型软件生态系统安全方面，360智脑通过自主研发的检测工具与多层次安全评估方法，可及时发现和修复潜在漏洞，为开发者和用户提供全面的技术支持。此外，针对提示注入攻击、持久性提示劫持、记忆投毒等新型安全威胁，团队研发了精准识别与多重防御机制，显著提升了模型对恶意行为的抗干扰能力。

内容安全方面，张向征分享了360智脑的实践经验。团队通过持续预训练、安全微调和安全强化对齐等手段，结合国标TC260的要求，构建了“大模型原生安全增强”“内容安全护栏”两大防护方案，有效减少模型输出中可能涉及的歧视偏见、违禁内容和其他不良信息。在实际应用中，这些措施帮助大模型在金融、医疗和教育等行业更安全、更高效地提供服务。

针对备受关注的大模型幻觉问题，360智脑创新性地引入幻觉检测Agent技术，能够对模型的输出进行实时评估与修正。通过结合外部知识库和搜索增强功能，该技术有效降低了幻觉发生率，提升了模型的决策可信度。张向征透露，得益于这一技术，360智脑在AI搜索场景中的用户体验提升了32%。

此外，在Agent流程可控方面，360智脑构建了一套针对多Agent协作任务的流程监控与管理机制，通过实时监测和动态调整，确保模型任务执行的全程可控性与透明性。这一举措不仅有效降低了操作偏差的风险，还为复杂任务的安全性提供了有力保障。

演讲还介绍了新型攻击方式的风险评估与应对策略。随着大模型应用的加深，基于自然语言到代码的间接提示注入（NL2SHELL）等攻击正日益增多。对此，360智脑利用自主研发的安全评测大模型，结合红队攻击模型，通过对抗方式快速识别潜在威胁，并持续优化模型的安全策略。

张向征表示，大模型安全不仅是技术问题，更是行业共同面临的课题，只有在保障大模型安全的前提下，才能真正释放AI的无限可能。360智脑致力于与产业伙伴协作，共建安全可信的AI生态。他呼吁全行业关注大模型的“检、防、攻、测”体系建设，通过技术创新与资源共享，共同推动大模型在社会各领域的落地与发展。

原文地址：https://blog.csdn.net/weiqihang/article/details/144458029

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java报错Communications link failure
下一篇：用户输入 %%%% , MYSQL中数据全被查询出来的Bug(GORM)

安卓动态设置Unity图形API
安卓动态设置Unity图形API，Unity图像api设置为自动，安卓动态设置Vulkan、OpenGLES。
阅读更多2025-01-23
【深度学习基础】多层感知机 | 暂退法（Dropout）
本文讲解深度学习中的暂退法，并完成了暂退法的从零开始实现和简洁实现。暂退法在前向传播过程中，计算每一内部层的同时丢弃一些神经元。暂退法可以避免过拟合，它通常与控制权重向量的维数和大小结合使用的。
阅读更多2025-01-23
基于微信小程序的健身管理系统设计与实现（LW+源码+讲解）
专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据
阅读更多2025-01-23
在K8S中，Keepalived是如何检测工作节点是否存活的？
Keepalived支持用户自定义健康检查脚本（vrrp_script），通过执行这些脚本来检测特定服务或资源的状态。例如，你可以编写一个脚本来ping某个IP地址、检查TCP端口是否打开，或者执行H
阅读更多2025-01-23
详细介绍：云原生技术细节（关键组成部分、优势和挑战、常用云原生工具）
本章详细介绍：云原生技术细节（关键组成部分、优势和挑战、常用云原生工具）
阅读更多2025-01-23
【开发日记】微信小程序getBackgroundAudioManager播放背景音乐提示播放失败
小程序在手机上打开，播放在线音频的时候会提示播放失败，但打印异常提示的是src为null，自己在打印的时候却没问题。并且在微信开发者工具中播放的时候也是正常的，只有手机上打开使用时提示异常。
阅读更多2025-01-23
数据分析变异系数
简单来讲就是平均值/标准差变异系数（Coefficient of Variation, CV）是一种相对量的变异指标，常用于衡量数据的离散程度。它通过标准差与均值的比值来表示，消除了单位差异的影响，使
阅读更多2025-01-23
原生toFixed的bug
如果5后无有效数字，则需看5前面的数字。若为奇数，则向前进一位；若为偶数（包括0），则直接舍去5不进位。如果5后还有不为“0”的任何数，无论5的前面是奇数还是偶数，均应进位。六入：当被修约的数字大
阅读更多2025-01-23
健身房项目 Uniapp+若依Vue3版搭建！！
本次系统实现主要负责前端前端功能的实现。其中系统前端主要分为三大部分，首页，教练列表页，我的页面。首页的实现效果如图。
阅读更多2025-01-23
[矩阵扩散]
真题目录:E 卷 100分题型。
阅读更多2025-01-23

360智脑张向征：共建可信可控AI生态 应对大模型安全挑战

发布 | 大力财经

相关文章

360智脑张向征：共建可信可控AI生态应对大模型安全挑战