开源PDF解析工具marker 和 MinerU的解析效果对比
RAG中的文档解析需求:需要的是文档的完整段落,标题,图片,表格。我们希望删除的是md格式,或者josn格式。 MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。整理出来目前还存在的问题。
MinerU 和 marker
marker是开源很久的一个PDF解析工具。目前star 14.5k。地址如下:
https://github.com/VikParuchuri/marker
对比效果
我以一篇财报的PDF为例。财报通常比较复杂,包含表格,表格还不规整,还包括图片。
先说一下结论:MinerU 和 marker 是开源PDF文档解析中能够满足RAG的需求的。它们多多少少有一些问题,但是还能接受。其中两者解析段落已经非常准确了。并且maker是能够把表格解析为md结构的。MinerU的版面分析也很准确,表格定位蛮准确。
二者存在的问题,对比效果如下
对比问题1:PDF-Extract-Kit 图片识别错误
原PDF首页
marker 解析正确
PDF-Extract-Kit 将文本块,识别成了图片。
对比问题2:表格识别问题
原PDF
maker把表格转成了md格式
但是表格的标题行识别错误了。
PDF-Extract-Kit 未对表格做处理
保存为图片
对比问题3:目录识别问题
PDF原文件
maker把目录识别成了表格
PDF-Extract-Kit 目录识别正确
对比问题4:标题识别问题
原PDF
maker标题遗漏
PDF-Extract-Kit 识别标题正确
对比问题5:表格解析错误
maker表格转md混乱
原文地址:https://blog.csdn.net/star1210644725/article/details/140569870
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!