自学内容网 自学内容网

VikParuchuri/marker 学习简单总结

核心代码

VikParuchuri/marker 的核心是使用https://github.com/VikParuchuri/surya的 pdf 模型,注意不仅仅是ocr,在marker的代码里面有标注ocr 是option的。强制OCR 要设置:OCR_ALL_PAGES=true

核心代码就是convert.py

def convert_single_pdf(
        fname: str,
        model_lst: List,
        max_pages: int = None,
        start_page: int 

原文地址:https://blog.csdn.net/weixin_40455124/article/details/142716045

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!