做一个英文PDF转化为中文PDF的系统

🕗 发布于 2024-10-18 11:12 pdf

以下是基于本地模型的PDF翻译系统的完整设计和代码实现，支持术语表的导入，并保留PDF的原有格式。

系统设计概述

本系统的目标是将英文PDF文件翻译成中文，并保持原有的排版和格式（如字体、图片、表格等）不变，同时支持导入术语表，确保特定的术语得到精确翻译。

功能模块

PDF 文件解析模块：
- 负责解析PDF文件，提取文本、段落、图像、表格等信息，并保留其格式。
术语表管理模块：
- 支持用户上传术语表（CSV 或 Excel 格式），将特定的术语及其翻译映射存储在字典中。
本地翻译模型模块：
- 使用 Hugging Face 提供的 MarianMT 或 mBART 模型进行本地翻译，不依赖在线API。
格式重建与PDF生成模块：
- 在翻译完成后，按照原有的PDF格式生成新的PDF文件，保持翻译后的内容与原文件一致。
优化与扩展：
- 系统支持异步任务处理，能够高效处理大文件，并为不同行业配置不同的术语表。

代码实现

1. PDF 解析模块

使用 PyMuPDF 提取文本并保留格式。


import pymupdf

def extract_text_from_pdf(pdf_path):
    doc = pymupdf.open(pdf_path)
    pdf_content = []
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text = page.get_text("text")
        blocks = page.get_text("dict")["blocks"]
        pdf_content.append({
            "text": text,
            "blocks": blocks,  # 用于保留格式信息
        })
    return pdf_content



if __name__ == '__main__':

    context=extract_text_from_pdf("pdftest.pdf")
    print(context)

2. 术语表管理模块

从 CSV 或 Excel 文件导入术语表，并使用字典存储术语的映射。

import pandas as pd

def load_terms(terms_file):
    # 假设术语表格式是英文列和中文列
    terms_df = pd.read_csv(terms_file)  # 可扩展为Excel
    terms_dict = dict(zip(terms_df['English'], terms_df['Chinese']))
    return terms_dict

def replace_terms(text, terms_dict):
    # 替换文本中的术语
    for eng_term, zh_term in terms_dict.items():
        text = text.replace(eng_term, zh_term)
    return text

3. 本地翻译模型模块

加载 MarianMT 模型，进行英文到中文的翻译。

from transformers import MarianMTModel, MarianTokenizer

def load_translation_model():
    model_name = 'Helsinki-NLP/opus-mt-en-zh'
    tokenizer = MarianTokenizer.from_pretrained(model_name)
    model = MarianMTModel.from_pretrained(model_name)
    return tokenizer, model

def translate_text(text, tokenizer, model):
    tokenized_text = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    translated_tokens = model.generate(**tokenized_text)
    translated_text = tokenizer.decode(translated_tokens[0], skip_special_tokens=True)
    return translated_text

4. 翻译结合术语表

在翻译文本前先用术语表替换术语，再用本地模型翻译其余文本。

def translate_with_terms(text, terms_dict, tokenizer, model):
    # 先进行术语替换
    text_with_terms = replace_terms(text, terms_dict)
    # 对剩余文本进行翻译
    translated_text = translate_text(text_with_terms, tokenizer, model)
    return translated_text

5. 保持格式生成PDF

使用 PyMuPDF 结合翻译后的文本生成新的 PDF，保持原有排版和格式。

from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

def generate_translated_pdf(translated_content, output_pdf_path):
    c = canvas.Canvas(output_pdf_path, pagesize=letter)

    # 假设每页使用相同的格式信息，重绘文本
    for page in translated_content:
        for block in page['blocks']:
            x, y = block['bbox'][:2]  # 假设使用边界框信息确定文本位置
            translated_text = block['text']
            c.drawString(x, y, translated_text)  # 重新绘制文本

    c.save()

6. 主流程

整合上述模块，形成翻译流程。

def main(pdf_path, terms_file, output_pdf_path):
    # 步骤 1: 解析 PDF 文件
    pdf_content = extract_text_from_pdf(pdf_path)

    # 步骤 2: 导入术语表
    terms_dict = load_terms(terms_file)

    # 步骤 3: 加载本地翻译模型
    tokenizer, model = load_translation_model()

    # 步骤 4: 翻译内容并保留格式
    translated_content = []
    for page in pdf_content:
        translated_page = {
            "blocks": []
        }
        for block in page["blocks"]:
            translated_text = translate_with_terms(block['text'], terms_dict, tokenizer, model)
            translated_block = {
                "bbox": block['bbox'],  # 保留位置
                "text": translated_text
            }
            translated_page["blocks"].append(translated_block)
        translated_content.append(translated_page)

    # 步骤 5: 生成翻译后的 PDF 文件
    generate_translated_pdf(translated_content, output_pdf_path)

系统功能说明

术语表支持：通过导入用户定义的术语表，在翻译时优先处理特定词汇，确保术语翻译的准确性。
本地模型：使用本地的 MarianMT 模型进行高效翻译，不依赖在线API，保证隐私与数据安全。
格式保留：在翻译完成后，PDF的段落、字体、表格等格式保持不变，生成的PDF文件与原文件视觉效果一致。
可扩展性：可以扩展为支持更多翻译模型（如 mBART），并处理复杂的 PDF 元素（如图像、表格等）。

进一步优化建议

并行处理：对于大型PDF文件，可以对每一页的文本翻译过程并行化，以提高效率。
文本块优化：在提取文本时，可以对文本进行预处理（如去除多余的空格、断行符等），以提高翻译质量。
术语表管理：为用户提供术语表的编辑和维护界面，使得系统能针对不同行业或领域定制翻译内容。

通过这样的设计，你能够实现一套完整且高效的PDF翻译系统，并确保在不调用在线API的情况下，通过本地模型翻译英文PDF为中文，且保留原有格式。

原文地址：https://blog.csdn.net/sunyuhua_keyboard/article/details/142992007

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：解决idea引入含bom头文件出错的方法
下一篇：【命令操作】Linux上通过mdadm配置软RAID _ 统信 _ 麒麟 _ 方德

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20