自学内容网 自学内容网

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16


目录


1. Leveraging Social Determinants of Health in Alzheimer’s Research Using LLM-Augmented Literature Mining and Knowledge Graphs

Authors: Tianqi Shang, Shu Yang, Weiqing He, Tianhua Zhai, Dawei Li, Bojian
Hou, Tianlong Chen, Jason H. Moore, Marylyn D. Ritchie, Li Shen
https://arxiv.org/abs/2410.09080

利用增强型大型语言模型的文献挖掘和知识图谱在阿尔茨海默病研究中利用健康社会决定因素

摘要:
本研究提出了一个自动化框架,利用大型语言模型(LLM)和自然语言处理技术从广泛的文献中挖掘健康社会决定因素(SDoH)知识,并将其与通用知识图谱PrimeKG中提取的与阿尔茨海默病(AD)相关的生物实体整合。通过图神经网络进行链接预测任务,评估了增强型SDoH知识图谱的结果。该框架显示出在增强AD知识发现方面的潜力,并且可以推广到其他与SDoH相关的研究领域。
在这里插入图片描述

问题背景:
阿尔茨海默病(AD)是一种常见的神经退行性疾病,其发病机制复杂,涉及多种医疗和非医疗因素。社会决定因素(SDoH)是影响个体AD风险的非医疗因素,但其与疾病发展的基本生物学过程之间的联系尚不清楚。
在这里插入图片描述

算法模型:
研究中使用了图神经网络(GNN)来评估通过LLM增强的文献挖掘得到的SDoH知识图谱。通过链接预测任务来评估知识图谱的性能。

算法创新点:

  • 提出了一个结合LLM和NLP技术的自动化框架,用于从文献中提取SDoH知识。
  • 将SDoH知识与生物医学实体整合,构建了一个AD相关的SDoH知识图谱。
  • 使用GNN进行链接预测任务,以评估知识图谱的性能。

实验效果:
实验结果表明,通过整合SDoH信息,可以显著提高知识图谱在链接预测任务中的性能,显示出在AD研究中应用该框架的潜力。

重要数据结论:

  • 知识图谱包含4,058条边和1,364个独特的SDoH实体/节点。
  • 在链接预测任务中,SDoH增强的知识图谱在所有选定关系上的MRR值显著高于未增强的图谱。

2. Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs

Authors: Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong
Zheng, Quanshi Zhang
https://arxiv.org/abs/2410.09083
大型语言模型与人类认知决策逻辑的一致性:以法律LLM为例的案例研究

摘要:
本文提出了一种评估大型语言模型(LLM)决策逻辑与人类认知一致性的方法,以法律LLM为案例研究。研究不仅评估了语言生成结果的正确性,还关注了LLM背后的详细决策逻辑的正确性,这是LLM获得人类信任的核心挑战。

问题背景:
LLM在高风险任务中的部署面临着可信赖性和安全性的重大挑战,尤其是在需要与人类用户对齐的决策逻辑时。
在这里插入图片描述

算法模型:
研究中提出了一种基于交互的解释方法,通过量化LLM编码的交互作为原始决策逻辑,设计了一套评估LLM详细决策逻辑的指标。

算法创新点:

  • 提出了一种评估LLM决策逻辑与人类认知一致性的方法。
  • 设计了新的指标来量化可靠的和不可靠的交互效应。

实验效果:
实验表明,即使语言生成结果看起来正确,LLM的内部推理逻辑中也有相当一部分存在显著问题。

重要数据结论:

  • 在法律LLM的实验中,即使预测的判断结果正确,也有相当比例的内部推理逻辑存在问题。

3. P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains

Authors: Simeng Han, Aaron Yu, Rui Shen, Zhenting Qi, Martin Riddell, Wenfei
Zhou, Yujie Qiao, Yilun Zhao, Semih Yavuz, Ye Liu, Shafiq Joty, Yingbo Zhou,
Caiming Xiong, Dragomir Radev, Rex Ying, Arman Cohan
https://arxiv.org/abs/2410.09207

P-FOLIO:评估和提高丰富的人类编写推理链的逻辑推理能力

摘要:
本文介绍了P-FOLIO,这是一个由人类注释的数据集,包含了一组现实逻辑推理故事的多样化和复杂的推理链,这些故事也是由人类编写的。P-FOLIO的收集采用了一种注释协议,方便人类以逐步的方式为一阶逻辑推理问题注释结构良好的自然语言证明。

问题背景:
现有的LLM逻辑推理能力评估方法依赖于二元蕴含分类或合成推理,这些方法不足以适当调查模型的逻辑推理能力。

算法模型:
P-FOLIO数据集用于评估和提高大型语言模型(LLM)的推理能力。通过单步推理规则分类和单步推导推理来评估LLM的推理能力。

算法创新点:

  • 提出了一种新的数据集P-FOLIO,包含了人类编写的逻辑推理证明。
  • 使用P-FOLIO来评估LLM的推理能力,并提出了多种评估任务。

实验效果:
实验结果表明,通过多样本提示和微调,人类编写的推理链显著提高了LLM的逻辑推理能力。
在这里插入图片描述

重要数据结论:

  • 在三个其他领域的逻辑推理数据集上,微调Llama3-7B模型的性能提高了10%以上。
    在这里插入图片描述

4. Natural Language Counterfactual Explanations for Graphs Using Large Language Models

Authors: Flavio Giorgi, Cesare Campagnano, Fabrizio Silvestri and Gabriele
Tolomei
https://arxiv.org/abs/2410.09295

使用大型语言模型为图形生成自然语言反事实解释

摘要:
在这项工作中,我们利用开源的大型语言模型(LLM)在被最新的反事实解释器产生的有效反事实实例提示时,生成自然语言解释。实验表明,我们的方法有效地产生了准确的自然语言表示,通过关键绩效指标验证。

问题背景:
可解释人工智能(XAI)作为研究领域出现,以揭开(深度)机器学习模型的不透明内部逻辑。反事实解释作为XAI技术之一,尽管有前景,但这些“如果”解释通常复杂且技术性强,难以为非专家理解。
在这里插入图片描述

算法模型:
研究中考虑了用于GNN节点分类任务的通用图形反事实解释器输出的反事实实例。然后,指导多个开源LLM将这些“原始”反事实实例翻译成连贯的自然语言解释。

算法创新点:

  • 提出了一种使用LLM将图形反事实解释转换为自然语言的方法。
  • 定义了新的指标来适当评估这些解释的有效性。

实验效果:
通过使用两个图形反事实解释器对多个图形数据集和多个开源LLM进行的广泛实验,证明了该方法可以通过生成自然语言解释有效支持决策过程。
在这里插入图片描述在这里插入图片描述

重要数据结论:

  • 在Cora和CiteSeer数据集上,随着LLM参数数量的增加,所有指标的性能都有显著提高。

5. Equitable Access to Justice: Logical LLMs Show Promise

Authors: Manuj Kant, Manav Kant, Marzieh Nabi, Preston Carlson, Megan Ma
https://arxiv.org/abs/2410.09904

公平获取正义:逻辑LLM显示出希望

摘要:
美国司法系统的成本和复杂性限制了许多美国人获得法律解决方案的机会。大型语言模型(LLM)有很大的潜力改善获得正义的机会。然而,在法律环境中应用AI和LLMs,其中一致性和可靠性至关重要,需要系统2推理。在本文中,我们探讨了将LLM与逻辑编程相结合,以增强其推理能力,使其战略能力更接近熟练律师的能力。

问题背景:
获取法律解决方案的机会在低、中、上中产阶级中变得越来越有限,所有这些阶级都面临着重大障碍。超过75%的诉讼当事人自行代表,加利福尼亚州报告有超过430万自行代表的诉讼当事人。
在这里插入图片描述
在这里插入图片描述

算法模型:
研究中提出了将LLM与逻辑编程相结合的方法,以提高其推理能力。通过将法律和合同转化为可以应用于特定法律案例的逻辑程序,专注于保险合同。

算法创新点:

  • 提出了一种结合概率和确定性AI解决方案的方法,以有效解决法律规划和推理问题。
  • 展示了如何使用LLM生成逻辑表示,并将特定案例的详细信息应用于基于逻辑的框架。

实验效果:
实验表明,最新的OpenAI o1-preview模型在将保险政策编码为逻辑程序方面,比其前身GPT-4o有显著优势。

重要数据结论:

  • 在十次试验中,o1-preview的平均正确答案数为7.5,而GPT-4o的平均正确答案数为2.4。

后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术


原文地址:https://blog.csdn.net/fyf2007/article/details/142994040

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!