NLP与LLM的工程化实践与学习思考 - 写在开头

🕗 发布于 2024-12-09 11:55 自然语言处理知识图谱语言模型 人工智能

NLP与LLM的工程化实践与学习思考[24年半年工作总结] - 写在开头

0 开头的开头

0 开头的开头

24年因为一些工作原因，短暂在NLP领域遨游了半年。这半年对我的影响蛮大，一来是因为此前从没接触过这个方向学到新东西挺开心的，二来是在工程化实践有了一些新的思考，包括项目架构设和如何从零学习一个新的体系。（这个专栏主要想写这段时间学到的东西和一些思考，至于学习体系可能后面有空开个贴写，关于架构这一块儿仍然一知半解，后面系统学习整理一下）（希望不会烂尾，争取慢慢写完）

关于我这半年搞了什么🧐🧐

总结一下就是，基于 知识图谱+专家系统+LLM的医疗精准问答及辅助诊断系统 。

用到了哪些技术？

知识图谱搭建、关系抽取、情感分析、实体抽取、同义词匹配、向量数据库、LLM等

为什么在当前大模型井喷的时候仍然选择分解为知识图谱+专家系统的核心模块？

这个问题后面会仔细从工程、开发及市场（？）的角度解释，这里先简要概括一下原因。第一是因为应用领域特殊，医疗和其它垂直领域最大的区别或者说应用分歧在于，它是直接作于人的，从技术开发的角度来说，直接使用一个大模型力大砖飞可以做出一个看起来既吸睛，又高端的医疗大模型，看上去能解决一切问题。但是从患者角度来看呢，你是否信任一个黑箱告诉你的诊断和决策。这涉及一个很重要的点 - 可解释性 。
我们作为开发者，必须为直接或间接使用这套系统的用户（患者、医生、亲属）负责。而任何一个从事本领域开发的技术人员都知道大模型有一个不容忽视的问题 - 幻觉。这也是我们选择弱化大模型在整体系统中的核心地位的主要原因。我们不希望因为这套系统在出于技术促进医疗的目的下，直接或间接造成本不该出现的医疗事故。

为什么选择知识图谱？

讲道理，知识图谱是大模型风靡之前，NLP领域占有极大重量的一个分支，单论知识图谱搭建及生成技术早就不新奇，甚至不夸张的说现在任何一个成熟领域几乎都有其专有公开图谱。但是似乎大家对图谱的开发也就到此为止，一个好看的界面、一个开放图谱。那么我们如何把这项老掉牙（？）的技术玩出花来，嗯，是一个值得深思的问题。

截止离职，已经做到了什么？

我们可以根据医患历史对话及患者病史，通过结合图谱分析当前症状、地域、历史病症、用药情况等，作出潜在疾病风险预警、潜在症状问诊提示、在库用药推荐等。成功打通前后端、算法全流程部署。

这套系统是我工作以来第一次完整的搭建和设计的系统，里面一定会有稚嫩和缺失的内容，但是自觉已经做到了能力范围内的尊重伦理道德的技术实践。这套系统也是全然不同于公开方案的新的pipeline设计，尽管截止离职，这套系统刚实现到我整体技术规划的30%，大概属于刚打好地基的程度。后面的技术规划也属于是业内独有功能设计，最最最重要的一点是，它是可解释的。

出于职业道德，后续文章不会讲解具体的系统技术细节，我会尽可能的拆分成独立知识点，用以记录这半年短暂的知识遨游😁👌。

另外，离职后，老大后面很开心的告诉我在此基础上做了后续的工作，它已经越来越像一个人啦O(∩_∩)O

done

原文地址：https://blog.csdn.net/qq_43842886/article/details/144325447

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：k8s-Informer之Reflector的解析
下一篇：Spring Boot 中 RabbitMQ 的使用

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

NLP与LLM的工程化实践与学习思考 - 写在开头

NLP与LLM的工程化实践与学习思考[24年半年工作总结] - 写在开头

0 开头的开头

相关文章