深度学习速通系列:在bert的基础上使用上下文窗口处理超长文本

🕗 发布于 2024-11-05 01:14 深度学习 人工智能 自然语言处理 bert nlp

要使用滑动上下文窗口进行处理，可以在分割文本时考虑一个重叠的窗口，使得每个窗口的起始位置和结束位置有一定的重叠。这样可以保留更多的上下文信息。
以下是修改后的代码示例，添加了滑动窗口的功能：

import torch
from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline

# 加载预训练模型和分词器
model_name = "bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForTokenClassification.from_pretrained("uer/bert-base-chinese-nlp")
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer)

# 定义最大输入长度和重叠长度
max_input_length = 512
overlap_length = 50  # 重叠长度

# 超长中文文本
long_text = "你的超长文本在这里。"

# 使用滑动窗口进行分割
def sliding_window_split(text, max_length, overlap):
    words = tokenizer.tokenize(text)
    segments = []
    start = 0
    while start < len(words):
        end = min(start + max_length - 2, len(words))  # -2 for [CLS] and [SEP]
        segment = words[start:end]
        segments.append(tokenizer.convert_tokens_to_string(segment))
        start += (max_length - overlap)  # 移动窗口，保留重叠部分
    return segments

# 对文本进行分割
segments = sliding_window_split(long_text, max_input_length, overlap_length)

# 进行命名实体识别
for segment in segments:
    ner_results = ner_pipeline(segment)
    print(ner_results)

关键修改点：

滑动窗口函数：sliding_window_split 函数根据最大输入长度和重叠长度进行分割。
重叠移动：每次移动窗口的起始位置时，减去重叠长度，从而保留一定的上下文。这样，每个生成的文本段落之间就会有重叠，从而增强上下文信息的捕捉能力。

原文地址：https://blog.csdn.net/weixin_51455837/article/details/143355390

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【学习】ZLMediaKit试用
下一篇：深入理解Java虚拟机（五）

深度学习：Masked Self-Attention 详解
Masked Self-Attention 是 Transformer 架构中解码器的关键组件，特别用于处理自回归任务，如文本生成。该机制确保模型在生成一个序列的每个元素时只能利用之前元素的信息，防止
阅读更多2024-11-07
DBeaver如何快速格式化sql语句，真简单！
我之前在使用DBeaver的时候，一直不知道其可以格式化sql语句，导致sql语句看起来比较杂乱，今天就来介绍下DBeaver如何格式化sql语句。首先，我们打开一个sql窗口，在里面输入我们要查询的
阅读更多2024-11-07
【C++】红黑树
红⿊树是⼀棵⼆叉搜索树，他的每个结点增加⼀个存储位来表⽰结点的颜色，可以是红色或者黑色。通过对任何⼀条从根到叶⼦的路径上各个结点的颜色进行约束，红⿊树确保没有⼀条路径会⽐其他路径⻓出2倍，因而是接近平
阅读更多2024-11-07
高效数据集成：从旺店通到金蝶云
通过轻易云数据集成平台，我们能够高效地完成从源平台到目标平台的数据ETL转换和写入过程。利用灵活的元数据配置和强大的API调用能力，不仅简化了复杂的数据集成任务，还大大提高了业务透明度和效率。
阅读更多2024-11-07
安装sshfs
你会不会很烦躁，搭建Samba或NFS服务，结果因为不同网段，导致无法挂载到windows或者linux操作系统正常使用。
阅读更多2024-11-07
基于SpringBoot的高校心理教育辅导设计与实现
在这种形势下，充分发挥互联网快捷方便的优势，弥补传统心理咨询方式的不足，开发一个高校心理教育辅导系统，不但实时地为在校学生提供专业的心理测试咨询服务，而且在学生隐私的保护和自尊心的维护方面也很有意义，
阅读更多2024-11-07
无人机目标检测与语义分割数据集（猫脸码客第238期）
通过分析这些数据，研究人员可以了解无人机在不同条件下的飞行路径和轨迹变化情况，进而优化无人机的飞行路径规划算法。通过该数据集，研究人员可以深入分析无人机的飞行轨迹、速度、高度和风力条件等信息，优化无人
阅读更多2024-11-07
RK3568平台（基础篇）selinux内核安全
SELinux（Security-Enhanced Linux）是美国国家安全局在 Linux 开源社区的帮助下开发的一个强制访问控制（MAC，Mandatory Access Control）的安全
阅读更多2024-11-07
VisionPro —— 颜色匹配工具详解
复合颜色匹配工具将运行时图像的区域与复合颜色表进行比较，并确定哪种复合颜色生成最佳匹配。在向应用程序添加复合颜色匹配工具时，必须使用单个获取的图像或一系列单独的图像定义一组复合颜色。大多数应用程序将要
阅读更多2024-11-07
从CAB到PAB Oracle的AI 23.6（之二）
第二天在参会的途中就遇到了公司OGG的延迟问题。通过我快速的判断，我认为应该重启抽取进程。最终我的判断正确，这个问题得以解决。而我也把我的思路发给了昨天官方讲演OGG的老师。他也基本认可我的分析。我个
阅读更多2024-11-07

深度学习速通系列:在bert的基础上使用上下文窗口处理超长文本

关键修改点：

相关文章