Baseline_bm25实现文本检索

🕗 发布于 2024-07-27 19:54 人工智能 深度学习

大一还沉迷NLP时写的第一篇笔记，才发现在草稿箱躺了这么久oO

题目来源：飞桨AI Studio - 人工智能学习与实训社区 (baidu.com)

1.解压数据集

!unzip /home/aistudio/data/data205651/wenshu_ms_dataset.zip -d dataset

如果已经解压过了出现，但是在.py里面不能输出！

所以跑到终端去试试，但是显示 “!unzip: event not found”【雾，待解决】

2.定义一个读取数据集的函数

主要作用是收集【wenshu_dataset, wenshu_keys】这两个列表

每行代码都有非常详细的解释！因为我真的太菜了！

from tqdm import tqdm    #进度条模块
import os, json
# 读取数据集
def load_dataset(dataset_path):
    wenshu_dataset = []                     #创建空列表
    wenshu_keys = []       
    dataset_dir = os.listdir(dataset_path)  #使用os模块的listdir函数，获取dataset_path参数指定的目录下的所有文件名，并将其存储变量dataset_dir
    for dir in tqdm(dataset_dir):           #对dataset_dir中的每个文件名进行遍历，并使用tqdm模块的函数来显示循环的进度
        #以只读模式（r）和指定的编码（utf-8）打开dataset_path和dir拼接后的文件路径，并将其赋值给变量f
        with open(os.path.join(dataset_path, dir), 'r', encoding='utf-8') as f:  
            data = json.load(f)             #使用json模块的load函数，从打开的文件中读取JSON格式的数据，并将其赋值给变量data
            wenshu_dataset.append(data)     #将读取到的数据添加到wenshu_dataset列表的末尾
            wenshu_keys.append(dir[:-5])    #保存key
            f.close()                       #with会默认文件使用完毕后自动关闭
    return wenshu_dataset, wenshu_keys      #返回了两个列表：包含所有数据集的列表和包含所有key的列表

3.预处理——停用词&分词

import sys                                   #system
sys.path.append("../utils")                  #添加utils文件夹
from utils.BM25 import BM25Okapi as bm25     #导入BM25
import jieba                                 #导入jieba——中文分词
import numpy as np                           #导入numpy——基础数值计算
from tqdm import tqdm                        #导入进度条模块
stopwords = []                               #定义停止词列表
with open(r'utils/stopwords.txt', encoding='utf-8') as file:  #打开文件，读取停止词
    for line in file.readlines():            #遍历文件，读取每一行
        stopwords.append(line.strip('\n'))   #使用numpy来创建numpy矩阵，其形状为(wordSize)

with open(r'utils/stopword.txt', encoding='utf-8') as file:
    for line in file.readlines():
        stopwords.append(line.strip('\n'))   #去掉字符串末尾的换行符
stopwords = list(set(stopwords))             #将一个列表中的重复元素去重，set将列表转换为集合（去重），list再把集合转换回列表

def token_split(data):
    #cut_all为True时，表示使用全模式进行分词，即把文本中所有可能的词语都扫描出来，对于存在歧义的词语，会进行所有可能的切分，速度较快，但精度较低；
    #cut_all为False时，表示使用精确模式进行分词，即根据前缀词典和后缀词典进行切分，精度较高，但速度较慢
    data_cut = [jieba.lcut(i, cut_all=False) for i in data]  # lcut对输入的每一条文本数据进行分词
    result_cut = [[i for i in d if not i in stopwords] for d in data_cut]  # 去停用词
    return result_cut

def get_scores_bm25(text_q: str, texts_c: list):    #计算一个查询文本和多篇文本之间的BM25相似度分数
    q_cut = token_split([text_q])[0]                # 清洗、分词
    c_cut = token_split(texts_c)                    # 清洗、分词
    model_bm25 = bm25(c_cut)                        # 使用bm25()方法计算出文本集合的BM25模型
    score = np.array(model_bm25.get_scores(q_cut))
    return score
token_split(["你好世界"])

结果：

原文地址：https://blog.csdn.net/Kixuan214/article/details/130381256

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：LLM模型之基于MindSpore通过GPT实现情感分类
下一篇：数据结构-排序

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07

Baseline_bm25实现文本检索

1.解压数据集

2.定义一个读取数据集的函数

3.预处理——停用词&分词

相关文章