基于Python的自然语言处理系列（23）：DrQA

🕗 发布于 2024-10-05 00:24 自然语言处理 人工智能 问答系统

在本篇文章中，我们将实现 DrQA 模型，该模型最初由论文 Reading Wikipedia to Answer Open-Domain Questions 提出。DrQA 是一种用于开放域问答系统的端到端解决方案，最初包括信息检索模块和深度学习模型。本次实现中，我们主要探讨 DrQA 的深度学习模型部分。

1. 数据加载

DrQA 使用了斯坦福问答数据集（SQuAD）。该数据集由一系列 Wikipedia 文章中的段落和相关问题组成，答案是段落中的某个片段，或问题无法回答。

import json

def load_json(path):
    '''
    加载SQuAD数据集的JSON文件
    '''
    with open(path, 'r', encoding='utf-8') as f:
        data = json.load(f)
        
    print("数据集长度: ", len(data['data']))
    return data

# 加载数据
train_data = load_json('data/squad_train.json')
valid_data = load_json('data/squad_dev.json')

2. 数据预处理

由于 SQuAD 数据集的结构独特，每个段落可能有多个问题和答案，我们需要对其进行解析。我们将每个段落与相关的问题配对，并将其转换为易于处理的结构。

def parse_data(data:dict)->list:
    '''
    解析数据集，将每个问题和答案对与对应的段落配对
    '''
    qa_list = []
    for paragraphs in data['data']:
        for para in paragraphs['paragraphs']:
            context = para['context']
            for qa in para['qas']:
                id = qa['id']
                question = qa['question']
                for ans in qa['answers']:
                    qa_dict = {
                        'id': id,
                        'context': context,
                        'question': question,
                        'answer': ans['text'],
                        'label': [ans['answer_start'], ans['answer_start'] + len(ans['text'])]
                    }
                    qa_list.append(qa_dict)
    return qa_list

# 解析数据集
train_list = parse_data(train_data)
valid_list = parse_data(valid_data)

3. 构建词汇表

为了对文本进行数值化处理，我们需要构建词汇表。我们将使用 spaCy 分词器来帮助处理文本数据。

import spacy
from collections import Counter

nlp = spacy.load('en_core_web_sm')

def build_word_vocab(vocab_text):
    '''
    构建词汇表
    '''
    words = []
    for sent in vocab_text:
        words.extend([word.text for word in nlp(sent, disable=['parser', 'ner'])])
    word_counter = Counter(words)
    word_vocab = sorted(word_counter, key=word_counter.get, reverse=True)
    word_vocab.insert(0, '<unk>')
    word_vocab.insert(1, '<pad>')
    word2idx = {word: idx for idx, word in enumerate(word_vocab)}
    idx2word = {v: k

原文地址：https://blog.csdn.net/ljd939952281/article/details/142646005

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【进阶OpenCV】（4）--图像拼接
下一篇：Discord 用户突破2亿：CEO 谈发展规划、产品策略及游戏通信的未来

Spring Data JPA
这个接口的定义是在数据持久层（DAO 层，Repository 层），主要用于自定义一些查询方法（这是这个接口最主要的作用）。接口内部可以通过命名规则定义自定义查询方法，以便在业务逻辑层调用。（1.3
阅读更多2024-10-07
【JVM】深入解析 Java 虚拟机：内存区域、类加载与垃圾回收机制
本文介绍了 JVM 的内存区域划分、类加载过程及垃圾回收机制。内存区域包括程序计数器、堆、栈和元数据区，每个区域存储不同类型的数据。类加载过程涉及加载、验证、准备、解析和初始化五个步骤。垃圾回收机制主
阅读更多2024-10-07
鸿蒙开发（NEXT/API 12）【穿戴设备传感器获取】手机侧应用开发
手机侧应用可以通过Wear Engine获取穿戴设备上的传感器信息，并通过打开、关闭命令控制获取传感器数据。
阅读更多2024-10-07
c++剪枝
被剪枝支配的恐惧。QWQ
阅读更多2024-10-07
定时器实验(Proteus 与Keil uVision联合仿真）
一、T0工作在方式1，应使TMOD寄存器的M1、M0=01；应设置C/T*=0，为定时器模式；对T0的运行控制仅由TR0来控制，应使相应的GATE位为0。定时器T1不使用，各相关位均设为0。所以，TM
阅读更多2024-10-07
使用Python实现文本到语音转换（TTS）：打造高效易用的TTS应用
本文详细介绍了如何使用Python中的pyttsx3和gTTS库实现文本到语音转换（TTS）。我们讨论了两个库的安装、使用方法及各自的优缺点，展示了如何生成和播放语音，并通过代码示例构建了一个支持多语
阅读更多2024-10-07
亚马逊、ozon卖家：快速提升新品星级与评论数量的技巧
此外，自养号测评的技术简单易学，且可广泛应用于多个电商平台，如亚马逊、沃尔玛、eBay、Wish、Newegg、速卖通、阿里国际站、Shopee、美客多、敦煌网、Lazada、Temu、乐天、Ozon
阅读更多2024-10-07
《防MAC 地址欺骗攻击》
如果攻击者试图通过伪造多个 MAC 地址进行欺骗攻击，超过数量上限后，新的 MAC 地址将无法被学习，从而阻止攻击。将特定设备的 MAC 地址与交换机端口进行静态绑定，只有绑定的 MAC 地址对应的设
阅读更多2024-10-07
Parade Series - BASE64
Parade Series - BASE64
阅读更多2024-10-07
Stream流
在并行流中，流中的元素可以被分成多个数据块，每个块由不同的线程并行处理。并行流适合大数据量和 CPU 密集型的任务，它能够有效地利用多核 CPU 的计算能力。Stream就如同一个迭代器（Iterat
阅读更多2024-10-07

基于Python的自然语言处理系列（23）：DrQA

1. 数据加载

2. 数据预处理

3. 构建词汇表

相关文章