360多模态及文档理解大模型技术亮相全球机器学习技术大会，共探AI技术新前沿...

🕗 发布于 2024-11-17 17:08 人工智能 机器学习

北京，2024年11月15日 —— 在人工智能技术飞速发展的今天，全球技术生态正经历着深刻的变革。2024全球机器学习技术大会（北京站）于11月14-15日在北京举行，汇聚了顶尖的AI专家、学者和行业实践者，共同探讨机器学习的最新进展和未来趋势。在此次会议中，360人工智能研究院的两位资深专家冷大炜和刘焕勇，分别就“多模态大模型LMM与细粒度开放世界目标检测”和“文档理解及知识图谱增强大模型应用实践”发表了深入演讲，展示了360在AI及大模型领域的最新研究成果和技术实力。

360人工智能研究院自2015年成立以来，一直走在AI技术的前沿。研究院下辖的视觉引擎和认知引擎两个研发团队，在AI相关比赛中屡获殊荣，并发表顶会、顶刊论文数十篇。在业务落地方面，研究院为360集团提供了智能安全大数据、互联网信息分发、企业数字化、AIoT等全量业务场景支持，服务千万级硬件设备和亿级用户。

冷大炜博士，360人工智能研究院视觉方向负责人，在演讲中重点介绍了360在多模态大模型方向的最新研究成果和进展。当前业界大模型的研发主线已经从单纯的语言大模型升级到多模态大模型，冷大炜博士指出，多模态大模型的scaling law区别于纯语言模型，需要在模型结构、训练方法、数据偏见上分别解决相应的难题，并分享了360在这方面的心得和最新成果，包括360VL多模态大模型以及解决多模态大模型中的遗忘问题的IAA结构等。

冷大炜博士认为，当前多模态大模型的技术发展还远未成熟，面对多模态大模型在当前落地应用中面临的“什么都会什么都不精”的窘境，他进而提出基于多模态大模型实现“细粒度开放世界目标检测”的新研究方向，并分享了研究院在该方向下已经取得的初步成果，“多模态LMM本质上学习到的是文本模态和图像模态的隐式细粒度对齐，360VL在此基础上将细粒度开放世界目标检测做为主打建设能力，这一能力将对办公自动化、机器人具身智能、自动驾驶等领域产生重要影响。”

360VL通过自然语言进行多模态识别能力展示：

在业务落地方面，360的多模态大模型已经在智能产品、儿童手表、图像标签化、视频监控等多个场景中得到应用。例如，儿童手表通过拍照学英语的功能，可以实时分析照片中的主体位置和形象，提供中英文描述。在视频监控场景下，360智能产品能够准确识别异常物体和人的进入，实现开放世界目标检测。此外，360的AI智能摄像机和视觉云的SaaS平台已经为超过五万家企业提供了数字化解决方案。

刘焕勇，360人工智能研究院知识图谱及文档理解方向负责人，此次分享题目为《文档理解及知识图谱增强大模型应用实践》，介绍了面向RAG等场景的文档解析技术、知识图谱(GraphRAG)和RAG优化一线经验，并重点讲述了文档解析版式分析、图表理解等相关研发成果。刘焕勇先详细比较了OCR-pipeline、OCR-free等各技术路线，同时介绍了360在文档解析领域各模块的研发思路，包括版式分析、表格解析、公式解析、流程图、数值图等解析、markdown和目录生成逻辑，以及如何通过RAG多环节优化策略提升大模型在文档场景中的应用效果。

在对外开源方面，开源的轻量化版式分析模型360Layout-Analysis具有细分领域、精细化标注、占用空间小、推理速度快等特点，受到广泛欢迎。

在对外领先性方面，文档理解方向上的研究成果在国际上也具有强劲竞争力。在2024国际模式识别会议（ICPR 2024）人工智能、模式识别和机器学习赛道-“多行数学表达式识别任务”竞赛（ICPR 2024 Competition on Multi-line Mathematical Expressions Recognition）中，360公式识别模型以绝对优势获得冠军！

复杂公式转Latex示例

在业务落地方面，360文档理解整体模块作为“360知识大模型”的一部分，已在ToB产品“360智能文档云”中落地。据悉，在招投标过程中能力相比竞品有较大优势，已获得隧道股份等客户青睐。

高精度表格识别能力展示：右侧为pdf原文，左侧为识别的结果：模型识别出的表格可直接入库。

360人工智能研究院的专家们在大会上的演讲，不仅展示了360长期在多模态生成及文档理解等AI大模型技术方面的领先地位，并为未来的技术革新和应用实践提供了宝贵的思路和方向。

关于360人工智能研究院：360人工智能研究院成立于2015年，隶属于360集团技术中台，下辖视觉引擎和认知引擎两个研发团队。研究院核心成员和团队多次荣获 AI 相关比赛冠军 / 提名奖项，发表顶会、顶刊论文数十篇。2023 年以来着重攻坚LLM大语言模型、CV 大模型、多模态大模型和知识大模型等前沿领域。在业务落地方面，研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等 360 集团全量业务场景支持，并服务于亿级用户。

本文提到的模型开源地址

360VL多模态大模型：

GitHub 地址：https://github.com/360CVGroup/360VL

Huggingface 地址：https://huggingface.co/qihoo360/360VL-70B

360Layout-Analysis版式识别模型：

Github地址：https://github.com/360AILAB-NLP/360LayoutAnalysis；

模型权重-huggingface地址：https://huggingface.co/qihoo360/360LayoutAnalysis

原文地址：https://blog.csdn.net/qihoo_tech/article/details/143814233

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：HarmonyOS4+NEXT星河版入门与项目实战--------ArkTs语言与TypeScript语法
下一篇：从零开始学习 sg200x 多核开发之 TF 存储卡根文件系统扩容

计算机网络-Python通信
套接字（Socket）是通信的基石，是支持的网络通信的基本操作单元。最早是应用于unix系统的一种通信模式，unix系统下的所有操作均是面向文件，Socket的通信模式也是基于文件操作，客户端和服务端
阅读更多2024-11-22
计算机视觉（CV）技术的优势和面临的挑战
在身份证识别的例子中，CV技术的优势包括高效、准确和可自动化处理大量数据的能力。身份证信息识别：对提取到的文字信息进行识别，可以使用OCR（光学字符识别）技术，将图像中的文字转换为可编辑和可搜索的文本
阅读更多2024-11-22
openCV与eigen两种方法---旋转向量转旋转矩阵
【代码】openCV与eigen两种方法---旋转向量转旋转矩阵。
阅读更多2024-11-22
排序【数据结构】【算法】
所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。假定在待排序的记录序列中，存在多个具有相同的关键字的记录，若经过排序，这些记录的相对次序保持不变，即在原序列中，
阅读更多2024-11-22
[开源] SafeLine 好用的Web 应用防火墙(WAF)
雷池通过过滤和监控 Web 应用与互联网之间的 HTTP 流量来保护 Web 服务。可以保护 Web 服务免受SQL 注入XSS代码注入命令注入CRLF 注入ldap 注入xpath 注入RCEXXE
阅读更多2024-11-22
[开源] 告别黑苹果！用docker安装MacOS体验苹果系统
项目描述Docker 容器内的 OSX（macOS）是一个开源项目，旨在将 macOS 操作系统运行在 Docker 容器中。该项目利用 KVM 加速技术，提供了一个基于 Web 的 macOS 虚
阅读更多2024-11-22
第十章 JavaScript的应用
JavaScript是采用的隐式变量声明，但要注意在JavaScript语言的任何位置进行隐式变量声明会将变量声明为全局变量，而函数内的局部变量则必须使用var来声明变量，因此，在声明变量时，需要根据
阅读更多2024-11-22
记录eslint报错的情况
所以这句话的意思是，不识别这个标签，然后查看了一下.eslintrc配置文件，发现在代码中没有添加对.vue文件的支持。解决方案：配置正确的解析器，要插入 “parser”: “vue-eslin
阅读更多2024-11-22
GIT 操作
GIT 操作
阅读更多2024-11-22
CSS中Flex布局应用实践总结
的四个子元素两端对齐，左右不留间距，且中间元素的间距一样，可以使用 CSS 的 Flexbox 布局。子元素不设置 flex-shrink: 0 时子元素会随父元素宽度自动等分总宽度，子元素设置的宽度
阅读更多2024-11-22

360多模态及文档理解大模型技术亮相全球机器学习技术大会，共探AI技术新前沿...

360VL通过自然语言进行多模态识别能力展示：

相关文章