duee信息提取篇章级数据预处理

🕗 发布于 2024-07-09 01:20 自然语言处理

import os
import sys
import json

def read_by_lines(path):
    result = list()
    with open(path, "r", encoding="utf8") as infile:
        for line in infile:
            result.append(line.strip())
    return result

def write_by_lines(path, data):
with open(path, "w", encoding="utf8") as outfile:
[outfile.write(d + "\n") for d in data]

def text_to_sents(text):
    # 包含中文句子分隔符的 Unicode 字符串列表。这些分隔符用于在中文文本中识别和分割句子
    delimiter_symbols = [u"。", u"？", u"！"]#。？！
    paragraphs = text.split("\n")#按换行符拆分文本
    ret = []
    for para in paragraphs:#para:指其中的每个按行分割的一个个文本段
        if para.strip() == u"":
            continue
        sents = [u""]
        for s in para:#遍历文本段中的每个字符
            # print(s)#每个字符
            sents[-1] += s
            # print(s)
            # print(len(sents))
            if s in delimiter_symbols :#如果够一句话了,就为这个文本段新开始个，表示一个文本段中第二个句子
                sents.append(u"")
            # print(len(sents))
        # print('--------------------')
        if sents[-1] == u"":#如果这个文本段以空字符串结尾
            sents = sents[:-1]
        ret.extend(sents)#
    return ret

a=text_to_sents('这些分隔符用于在中文文本中识别和分割句子。mmm')

import hashlib

def calculate_md5(input_str):
md5_hash = hashlib.md5(input_str.encode('utf-8')).hexdigest()
return md5_hash
input_string = "hello world"
print(calculate_md5(input_string))

conf_dir = "./conf/DuEE-Fin"

if not os.path.exists(conf_dir):
os.makedirs(conf_dir)

schema_path = "./datasets/DuEE-fin/duee_fin_event_schema.json"

tags_trigger_path = "{}/trigger_tag.dict".format(conf_dir)#保存trigger标签
tags_role_path = "{}/role_tag.dict".format(conf_dir)#保存role标签
tags_enum_path = "{}/enum_tag.dict".format(conf_dir)#保存枚举

def label_add(labels, _type):
        if "B-{}".format(_type) not in labels:#没在列表里面就追加
            labels.extend(["B-{}".format(_type), "I-{}".format(_type)])
        return labels

# trigger,触发词
schema_l=read_by_lines(schema_path)# schema
labels = []
for line in schema_l:
    d_json = json.loads(line.strip())
    labels = label_add(labels, d_json["event_type"])
labels.append("O")
tags_trigger = []#
for index, label in enumerate(labels):#保存在列表，为了写到文件方便
    tags_trigger.append("{}\t{}".format(index, label))

write_by_lines(tags_trigger_path, tags_trigger)

enum_role = "环节"
labels = []
for line in schema_l:
    d_json = json.loads(line.strip())
    for role in d_json["role_list"]:
            if role["role"] == enum_role:#
                continue
            labels = label_add(labels, role["role"])
labels.append("O")
tags_roles = []#
for index, label in enumerate(labels):#里面元素是字典形式
    tags_roles.append("{}\t{}".format(index, label))

write_by_lines(tags_role_path, tags_roles)

enum_role = "环节"
labels = []
for line in schema_l:
    d_json = json.loads(line.strip())
    for role in d_json["role_list"]:
            if role["role"] == enum_role:
                labels = role["enum_items"]
tags_enums = []
for index, label in enumerate(labels):#里面元素是映射对的样式
    tags_enums .append("{}\t{}".format(index, label))

write_by_lines(tags_enum_path, tags_enums)

# data process
data_dir = "./datasets/DuEE-Fin"

sentence_dir = "{}/sentence".format(data_dir)

trigger_save_dir = "{}/trigger".format(data_dir)

role_save_dir = "{}/role".format(data_dir)
enum_save_dir = "{}/enum".format(data_dir)

if not os.path.exists(sentence_dir):
os.makedirs(sentence_dir)

x_train = read_by_lines( "./datasets/DuEE-fin/duee_fin_train.json")

def argument_in_sent(sent, argument_list, trigger):
trigger_start = sent.find(

原文地址：https://blog.csdn.net/LIjin_1006/article/details/140221890

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Geoserver源码解读六插件（怎么在开发模式下使用）
下一篇：MySQL相关知识点

一次性入门三款分布式定时任务调度框架：Quartz、ElasticJob3.0、xxl-job
三款分布式任务调度框架，一篇文章全部入门
阅读更多2024-10-19
Python OpenCV精讲系列 - 目标检测与识别深入理解（二十）
Haar特征是一种简单的图像特征，用于检测局部图像结构的变化。它由一组简单的黑色和白色矩形组成，用于计算图像中不同区域之间的平均像素强度差异。HOG（Histogram of Oriented Gra
阅读更多2024-10-19
OpenMediaVault安装插件以及重置web控制台密码
需要安装好openmediavault-md插件。
阅读更多2024-10-19
快速了解kubernetes中的存储管理
Secret 对象类型用来保存敏感信息，例如密码、OAuth 令牌和 ssh key。- 敏感信息放在 secret 中比放在 Pod 的定义或者容器镜像中来说更加安全和灵活- Pod 可以用两种方式
阅读更多2024-10-19
代理 IP：促进在线教育资源普及与公平的新助力
当某个地区的网络拥堵时，学生可以通过代理 IP 选择其他网络较为畅通的线路，确保学习的顺畅进行。对于一些教育资源匮乏的地区，代理 IP 可以帮助学生访问其他地区的在线教育平台，获取更多的学习资料、课程
阅读更多2024-10-19
代码训练营 day38|LeetCode 62，LeetCode 63
今天主要学习了dp的一系列操作，今天难度不大，有点dp那味儿了加油，坚持打卡的第38天。
阅读更多2024-10-19
Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis 阅读
Dynamic 3D Gaussians:Tracking by Persistent Dynamic View Synthesis 论文阅读
阅读更多2024-10-19
JS模块化及import、export
本文探讨了模块化编程的背景与目的，强调了通过降低代码重复、提高可读性和便于维护等优势来改善软件开发过程。文章还介绍了五大模块化原则，包括单一职责原则和依赖倒置原则，以确保代码的灵活性和可扩展性。此外，
阅读更多2024-10-19
css 如何根据子元素给他的父元素设置样式
'active' : 'unactive' }">子元素啊根据一个变量来加样式</div>其中能马上想到的就是：这个class的判断可以加在parent后面，但是如果不改变
阅读更多2024-10-19
前端学习---(2)CSS基础
关于文字样式的属性，都具有继承性。这些属性包括：color、 text-开头的、line-开头的、font-开头的。CSS 是用来指定文档如何展示给用户的一门语言——如网页的样式、布局、等等。css语
阅读更多2024-10-19

duee信息提取篇章级数据预处理

相关文章