#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9种PDF内容提取方式

🕗 发布于 2024-04-20 20:33 langchain 自然语言处理 pdf

# 读取markdown内容
from langchain_community.document_loaders import UnstructuredPDFLoader
from langchain import document_loaders

# 用到的所有方法
# load_pdf_file_langchain_unstructed # x按照行，无结构化
# load_pdf_file_pypdf # x按照页码，无结构化
# load_pdf_file_MathPix #  x需要填写app_id、app_key（公司付费可申请api），可以转成markdown，多级标题，字体大小相似不能识别
# load_pdf_file_unstructed # x按照行或者全文，无结构化
# load_pdf_file_PyPDFium2 # x按照页码，无结构化
# load_pdf_file_PDFMiner # x无结构化,甚至没有分页
# load_pdf_file_html # 需要改进算法
# load_pdf_file_PyPDFDirectory #  x无结构化，只是能从文件夹去读取pdf文件，读取结果还是按照页码
# load_pdf_file_AmazonTextractPDFLoader # x无结构话，官方文档只提到提取文本，为提取到提取header或者提取结构


def load_pdf_file_langchain_unstructed(content_path):
    loader = loader = UnstructuredPDFLoader(content_path, mode="elements")
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_pypdf(content_path):
    from langchain_community.document_loaders import PyPDFLoader
    loader = PyPDFLoader(content_path)
    pages = loader.load_and_split()
    for page in pages:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return pages
    
def load_pdf_file_MathPix(content_path):
    from langchain_community.document_loaders import MathpixPDFLoader
    loader = MathpixPDFLoader(content_path)
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_unstructed(content_path):
    from langchain_community.document_loaders import UnstructuredPDFLoader
    loader = UnstructuredPDFLoader(content_path, mode="elements")
    loader2 = UnstructuredPDFLoader(content_path)
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_PyPDFium2(content_path):
    from langchain_community.document_loaders import PyPDFium2Loader
    loader = PyPDFium2Loader(content_path)
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_PDFMiner(content_path):
    from langchain_community.document_loaders import PDFMinerLoader
    loader = PDFMinerLoader(content_path)
    data = loader.load()
    for page in data:
        print(page.page_content)
        print(page.metadata)
    return data

def load_pdf_file_html(content_path):
    '''
    这个函数的逻辑可以分为以下几个步骤：

使用 PDFMinerPDFasHTMLLoader 加载 PDF 文件并将其转换为 HTML 格式。

使用 BeautifulSoup 解析 HTML 内容，并找到所有的 'div' 标签。

遍历所有的 'div' 标签，并从每个标签的 'style' 属性中提取出字体大小（'font-size'）。

将具有相同字体大小的连续文本片段合并为一个片段，并将这些片段及其对应的字体大小存储在 snippets 列表中。

遍历 snippets 列表，根据每个片段的字体大小将其分类为标题或内容，并将其存储在 semantic_snippets 列表中。具体的分类规则如下：

如果当前片段的字体大小大于前一个片段的标题字体大小，那么将当前片段视为新的标题。

如果当前片段的字体大小小于或等于前一个片段的内容字体大小，那么将当前片段视为前一个片段的内容。

如果当前片段的字体大小大于前一个片段的内容字体大小但小于前一个片段的标题字体大小，那么将当前片段视为新的标题。

返回 semantic_snippets 列表，其中每个元素都是一个 Document 对象，包含一个标题和其对应的内容。
    '''
    from langchain_community.document_loaders import PDFMinerPDFasHTMLLoader
    loader = PDFMinerPDFasHTMLLoader(content_path)
    data = loader.load()[0]   # entire PDF is loaded as a single Document
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(data.page_content,'html.parser')
    content = soup.find_all('div')
    import re
    cur_fs = None
    cur_text = ''
    snippets = []   # first collect all snippets that have the same font size
    for c in content:
        sp = c.find('span')
        if not sp:
            continue
        st = sp.get('style')
        if not st:
            continue
        fs = re.findall('font-size:(\d+)px',st)
        if not fs:
            continue
        fs = int(fs[0])
        if not cur_fs:
            cur_fs = fs
        if fs == cur_fs:
            cur_text += c.text
        else:
            snippets.append((cur_text,cur_fs))
            cur_fs = fs
            cur_text = c.text
    snippets.append((cur_text,cur_fs))
    # Note: The above logic is very straightforward. One can also add more strategies such as removing duplicate snippets (as
    # headers/footers in a PDF appear on multiple pages so if we find duplicates it's safe to assume that it is redundant info)
    from langchain.docstore.document import Document
    cur_idx = -1
    semantic_snippets = []
    # Assumption: headings have higher font size than their respective content
    for s in snippets:
        # if current snippet's font size > previous section's heading => it is a new heading
        if not semantic_snippets or s[1] > semantic_snippets[cur_idx].metadata['heading_font']:
            metadata={'heading':s[0], 'content_font': 0, 'heading_font': s[1]}
            metadata.update(data.metadata)
            semantic_snippets.append(Document(page_content='',metadata=metadata))
            cur_idx += 1
            continue

        # if current snippet's font size <= previous section's content => content belongs to the same section (one can also create
        # a tree like structure for sub sections if needed but that may require some more thinking and may be data specific)
        if not semantic_snippets[cur_idx].metadata['content_font'] or s[1] <= semantic_snippets[cur_idx].metadata['content_font']:
            semantic_snippets[cur_idx].page_content += s[0]
            semantic_snippets[cur_idx].metadata['content_font'] = max(s[1], semantic_snippets[cur_idx].metadata['content_font'])
            continue

        # if current snippet's font size > previous section's content but less than previous section's heading than also make a new
        # section (e.g. title of a PDF will have the highest font size but we don't want it to subsume all sections)
        metadata={'heading':s[0], 'content_font': 0, 'heading_font': s[1]}
        metadata.update(data.metadata)
        semantic_snippets.append(Document(page_content='',metadata=metadata))
        cur_idx += 1
    return semantic_snippets


def load_pdf_file_PyPDFDirectory(content_path):
    from langchain_community.document_loaders import PyPDFDirectoryLoader
    loader = PyPDFDirectoryLoader(content_path)
    docs = loader.load()
    for doc in docs:
        print('-------------------')
        print('content')
        print(doc.page_content)
        print('metadata')
        print(doc.metadata)
    return docs
def load_pdf_file_AmazonTextractPDFLoader(content_path):
    from langchain_community.document_loaders import AmazonTextractPDFLoader
    loader = AmazonTextractPDFLoader(content_path)
    documents = loader.load()
    for doc in documents:
        print('-------------------')
        print('content')
        print(doc.page_content)
        print('metadata')
        print(doc.metadata)
    return documents
content_path= r"/home/xinrui/project/xinren-rag-inti/tests/data/测试-导入文本策略.pdf"
Directory_path= r"/home/xinrui/project/xinren-rag-inti/tests/data/"
# load_pdf_file_AmazonTextractPDFLoader(content_path)

参考文件：
langchain_community.document_loaders.pdf.AmazonTextractPDFLoader

How to Extract Data From PDFs Using AWS Textract With Python
Amazon Textract
langchain-pdf

原文地址：https://blog.csdn.net/weixin_45312236/article/details/137862172

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Axure中继器排序失效 /没变化解决
下一篇：浏览器工作原理与实践--跨站脚本攻击（XSS）：为什么Cookie中有HttpOnly属性

python自动化接口测试
前情阅读，关于自动化接口测试的基础知识介绍，可以阅读如下文章。
阅读更多2024-09-24
vue3＜script setup＞中使用reactive包裹的对象被重新赋值失去响应式原因和解决方式
Object.assign() 方法用于将所有可枚举属性的值从一个或多个源对象复制到目标对象，它会返回目标对象。
阅读更多2024-09-24
数位dp，LeetCode 2376 统计特殊整数
数位dp如何递推求解？
阅读更多2024-09-24
C#开发记录如何建立虚拟串口，进行串口通信，以及通信模板
记录时间;2024年4月记录如何开启虚拟串口以及进行基础串口通信。
阅读更多2024-09-24
【C++掌中宝】深入理解函数重载：概念、规则与应用
函数重载的概念，规则与应用的相关知识分享
阅读更多2024-09-24
[Matplotlib 教程] 如何用3D折线图直观展示多维数据变化
在数据分析中，我们经常需要展示多个维度的数据变化。最近，我用Python的Matplotlib库绘制了一个非常直观的3D折线图，展示了不同维度的数据随时间的变化。这种图不仅能应用在深度学习模型的训练中
阅读更多2024-09-24
解决银河麒麟桌面操作系统V10SP1 SSH连接“connection reset by ip地址 port 22”问题
遇到SSH连接银河麒麟V10SP1时“connection reset by ip地址 port 22”的错误，可以尝试以下步骤解决：
阅读更多2024-09-24
面经 | css
flex:1是felx:1 1 0的简写，是flex-grow:1;flex-basis:0的简写；掌握熟悉上面的一两种写下就行了。父元素是非static元素。
阅读更多2024-09-24
乐鑫ESP8266/安信可 ESP-01sWiFi模块烧录MQTT AT固件
ESP8266/ESP-01s烧录MQTT AT烧录最新的MQTT AT固件到ESP8266-01s模块的原因是，这一固件版本提供了对MQTT协议的原生支持，这使得模块能够直接作为MQTT客户端进行操
阅读更多2024-09-24
C语言 | Leetcode C语言题解之第430题扁平化多级双向链表
C语言 | Leetcode C语言题解之第430题扁平化多级双向链表
阅读更多2024-09-24

#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9种PDF内容提取方式

相关文章