【论文速读】| CHEMFUZZ: 大语言模型辅助模糊测试用于量子化学软件缺陷检测

🕗 发布于 2024-04-15 21:27 语言模型 人工智能 自然语言处理

本次分享论文为：CHEMFUZZ: Large Language Models-assisted Fuzzing for Quantum Chemistry Software Bug Detection

基本信息

原文作者：Feng Qiu, Pu Ji, Baojian Hua, Yang Wang

作者单位：中国科学技术大学软件工程学院，美国约翰霍普金斯大学计算机科学系

关键词：量子化学软件，模糊测试，大语言模型，安全测试

原文链接：

https://csslab-ustc.github.io/publications/2023/chemfuzz.pdf

开源代码：暂无

论文要点

论文简介：本论文介绍了一个称为CHEMFUZZ的新框架。该框架借助大语言模型（LLMs）进行量子化学软件的模糊测试，目的是发现软件潜在的漏洞。CHEMFUZZ通过使用LLMs生成既语法正确又语义有效的输入文件，并对这些文件进行修改，能够识别出量子化学软件中的各类漏洞，从而增强了软件的安全性与可靠性。研究中对三种流行的大语言模型——GPT-3.5、Claude-2和BART——进行了测试，结果显示CHEMFUZZ成功识别了40个唯一的漏洞，并实现了17.4%的代码覆盖率。

研究目的：研究者开发了一种名为CHEMFUZZ的自动化模糊测试框架。该框架通过利用大语言模型，旨在提升量子化学软件测试的有效性与效率，从而填补了当前研究在该领域的空白。

研究贡献：

1.首次将LLMs应用于量子化学软件的模糊测试，提出了一种新的测试方法。

2.实现了CHEMFUZZ原型，验证了方法的可行性。

3.通过大量实验，评估了CHEMFUZZ的有效性和性能，成功检测出多个实际漏洞。

引言

在人工智能赋能下的科学研究新纪元中，量子化学软件已成为科学研究与化学工业领域的关键工具。但是，软件固有的漏洞问题对其可靠性和安全性构成了严重威胁，迫切需要更高效的漏洞检测方法。面对量子化学软件对于复杂输入输出和专业化学知识的高要求，传统测试方法显得力不从心。本研究提出了一个创新性解决方案——CHEMFUZZ。这一框架通过大语言模型（LLMs）的辅助，进行模糊测试，能够智能地生成和修改测试用例以高效地发现软件漏洞。实验结果表明，CHEMFUZZ不仅大幅提升了漏洞检测的效率和覆盖率，而且为量子化学软件的安全性测试探索了新途径。

挑战和动力

量子化学软件在科研和工业领域扮演着核心角色。然而，其庞大的代码库和复杂性导致漏洞成为常态。随着这些软件越来越多地运行在云服务和超级计算机上，任何漏洞都可能引发严重后果，比如程序故障或数据丢失。面临这样的挑战，传统软件测试方法因缺少专业的化学知识和高效的测试用例生成机制而不尽人意。为此，研究者提出了CHEMFUZZ框架，这一框架集成了先进的大语言模型技术，专门设计来智能生成和修改测试用例。这样不仅能显著提高量子化学软件测试的效率和准确性，还能保障软件的可靠性和安全性，支持科学研究和化工产业的进步。

研究设计

为了解决量子化学软件测试的复杂性，本文介绍了CHEMFUZZ框架，这是一个采用了创新模糊测试策略的设计。其核心在于运用大语言模型（LLMs）的能力辅助测试。CHEMFUZZ分为两个主要模块：变异模块和分析模块。变异模块负责将种子输入文件通过智能变异，以结构和数据为基础生成新的测试用例；分析模块则聚焦于收集代码覆盖率信息，并利用LLMs对测试执行结果中的异常进行分析。这个框架将测试用例的生成和结果的分析自动化，显著提升了测试的效率和精确度。通过精心设计的算法和明确的实施机制，CHEMFUZZ致力于为量子化学软件的安全性提供更高级别的保护，并推进相关的软件测试技术发展。

研究评估

本文通过对CHEMFUZZ框架进行了多轮实验的全面评估。实验结果显示，CHEMFUZZ在现实世界的量子化学软件中极其有效，成功识别了40个之前未发现的漏洞，并达到了17.4%的代码覆盖率。此外，本文还比较了GPT-3.5、Claude-2和Bart三种大语言模型在测试中的性能，其中Claude-2在生成测试案例的质量和效率上表现最佳。这些实验不仅证明了CHEMFUZZ在提升量子化学软件安全性方面的有效性，还展示了大语言模型在软件测试领域的巨大潜力和实用价值。

研究论述

CHEMFUZZ的提出和实验验证，标志着量子化学软件测试领域的一次重大进步。本研究通过结合先进的大语言模型（LLMs），不仅显著提升了测试用例的生成效率和漏洞检测的准确性，还为软件测试领域引入了新的视角和方法。实验结果证明了CHEMFUZZ在实际应用中的有效性，成功检测出多个重要漏洞，展示了其在确保量子化学软件安全性方面的巨大潜力。此外，本研究还探索了不同大语言模型在测试过程中的表现，为未来的研究提供了宝贵的经验和启示。

论文结论

CHEMFUZZ作为一种创新的量子化学软件模糊测试框架，成功地将大语言模型（LLMs）的强大能力引入到软件漏洞检测领域。通过详细的实验验证，CHEMFUZZ不仅在提高测试效率和扩大代码覆盖率方面展现出显著成效，还成功检测出多个关键漏洞，为量子化学软件的安全性和可靠性提供了更加坚实的保障。本研究不仅为量子化学软件测试技术的发展开辟了新的道路，同时也为利用LLMs进行软件测试提供了新的视角和方法论，具有重要的理论意义和实践价值。

原作者：论文解读智能体

润色：Fancy

校对：小椰风

原文地址：https://blog.csdn.net/m0_73736695/article/details/137627363

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：黑客（网络安全）技术自学——高效学习
下一篇：【NLP】多标签分类【下】

百度搜索AI探索版多线程批量生成TXT原创文章软件-可生成3种类型文章
8、有8种标题模式可自由设置：1、关键词 2、百度搜索AI原创标题(以原创标题写文章) 3、关键词 + 百度搜索AI原创标题 4、关键词 + 下拉副标题 5、关键词 + 下拉副标题
阅读更多2024-11-16
批量更改表格数据不更新、不实时渲染、或则watch监听不到表格修改数据
第一种方法是监听的watch中添加deep:true，但是这种方法对我来说不管用，我需要监听某一列的数据，在批量更改后，统计数量，这时候，手动更改数据，他的监听并不能实时抓捕到。我这里的功能是，批量更
阅读更多2024-11-16
【大语言模型】ACL2024论文-10 CSCD-IME: 纠正拼音输入法产生的拼写错误
本文研究了中文拼写校正（CSC）任务，特别是针对拼音输入法（IME）产生的错误。作者首先介绍了一个包含40,000个标注句子的中文拼写校正数据集（CSCD-IME），这些句子来自新浪微博上的官方媒体帖
阅读更多2024-11-16
react 中 memo 模块作用
memo`是一个用于优化组件性能的高阶组件。
阅读更多2024-11-16
随笔content1
如果组件的具体类型无法获得，或者你并不关心组件的具体类型，那么可以使用 ComponentPublicInstance。当你将一个响应式对象的属性赋值或解构到一个本地变量时，访问或赋值该变量是非响应式
阅读更多2024-11-16
Java多线程底层设计思路
Java 的多线程设计比较全面和灵活，提供了多种方式来定义任务和管理线程，特别是通过Runnable和Callable接口，可以实现任务和线程的解耦，适应不同的应用场景。与 Python 和 C# 相
阅读更多2024-11-16
第七章利用CSS和多媒体美化页面
当设置为show时，就意味着当表格中某个单元格没有内容时，依然会显示该单元格的边框，这样可以保持表格的完整性和视觉上的连贯性，让用户在浏览表格时，能清晰地看到每个单元格的范围。而当参数为hide时，则
阅读更多2024-11-16
Cyberchef配合Wireshark提取并解析TCP/FTP流量数据包中的文件
通过cyberchef还原pcap数据包中TCP上层的文件内容，提升wireshark分析数据包的效率
阅读更多2024-11-16
redis
Redis 本质上是一个 Key-Value 类型的内存数据库，整个数据库加载在内存当中进行操作，定期通过异步操作把数据库数据 flush 到硬盘上进行保存。因为是纯内存操作， Redis 的性能
阅读更多2024-11-16
C++学习笔记之string容器、vector容器
vector可以动态扩展，动态扩展并不是在原空间之后续接新空间，而是找更大的内存空间，然后将原数据拷贝新空间，释放原空间。我们读过的书，说过的话，见过的山水，见到的人和事，最终都会变成我们脚下的的路。
阅读更多2024-11-16