文本相似度计算

🕗 发布于 2024-09-29 16:08 python

Sentence_transformers 是一种基于深度学习的自然语言处理技术，使用了大量的语料库进行训练，生成了多种预训练模型，主要用于将文本（包括句子、段落等）转换为向量表示，进而实现文本相似度计算、文本分类、文本聚类、语义搜索等多种自然语言处理任务。

该技术基于PyTorch和Transformers框架，支持多种语言（超过100种），提供了丰富的预训练模型，用户可以根据具体任务进行微调或直接使用。

其技术原理是通过将文本转换为向量，可以在向量空间中比较不同文本的相似度。这种表示方式能够捕捉文本的语义信息，而非仅仅是表面的词汇匹配。

使用Sentence_transformers 计算文本相似度：

首先下载Sentence_transformers与训练模型paraphrase-multilingual-MiniLM-L12-v2，下载地址为：https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/ 下载后解压即可直接使用。

安装依赖包（为了提升速度，我使用了清华源下载）：

pip install sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

在代码中import相应的依赖包：

from sentence_transformers.util import cos_sim
from sentence_transformers import SentenceTransformer as SBert

加载与训练模型

model = SBert('paraphrase-multilingual-MiniLM-L12-v2')

测试代码：

我定义了一个数组sen = ['human','i like you','人类','我爱你']，该数组中包含单词，也包含句子，有中文，也有英文，遍历数组，两两进行文本相似度计算，★数目越多，表示文本相似度也越高。

emb = model.encode(sen)，将数组元素分别转换成向量
cos = cos_sim(emb,emb)，计算待比较元素向量的余弦相似度，cos值越大，表示被比较的两个元素相似度越高。

def get_des_by_cosine(cos):    
    if cos>0.8:result='★★★★★'
    elif cos>0.7:result='★★★★'
    elif cos>0.5:result='★★★'
    elif cos>0.4:result='★★'
    else:result='★'
    return result 
    
def test_model():
    sen = ['human','i like you','人类','我爱你']
    emb = model.encode(sen)
    cos = cos_sim(emb,emb)

    for i in range(0,len(sen)):
        for k in range(0,len(sen)):
            val = cos[i][k]
            result = get_des_by_cosine(val)

            print('【{}】【{}】 {:.4f} {}'.format(sen[i],sen[k],val,result))

原文地址：https://blog.csdn.net/catontower/article/details/142615553

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Webpack】Hash 码
下一篇：Qt启动带终端的子程序

十一国庆节，学生们使用打字侠练习键盘指法
国庆节不仅是一个纪念祖国伟大历程的节日，也是学生们自我提升的好时机。通过打字侠练习键盘指法，学生们不仅能够在学习中体验到乐趣，还为未来的学习和工作打下坚实的基础。希望更多的学生能够在这个假期里，利用打
阅读更多2024-10-05
实战OpenCV之轮廓检测
轮廓检测，是指在图像中找到物体边缘的过程。这些边缘通常代表物体的外部边界或者内部结构的重要特征。通过检测这些轮廓，我们可以获取关于物体形状、大小和位置等有价值的信息。在OpenCV中，我们可以通过cv
阅读更多2024-10-05
图解大模型计算加速系列：vLLM源码解析3，Prefix Caching
当一个物理块没有任何逻辑块引用时（例如一个seq刚做完整个推理），这时它理应被释放。
阅读更多2024-10-05
C++中，如何使你设计的迭代器被标准算法库所支持。
DListNodeIterator : _DList正向迭代器，继承于。下面是_DList源码，最后修改于2024-10-01。std::iterator : 标准库读写迭代器。_DList ：是一个
阅读更多2024-10-05
idea2023-快速搭建一个本地tomcat的javaWeb项目（从0到1保姆教学）
idea创建javaweb项目，配置tomcat
阅读更多2024-10-05
手把手教你使用ECharts绘制金字塔结构图
大家好，今天我将为大家分享一篇关于如何使用ECharts绘制金字塔结构图的教程。ECharts是一款功能强大的图表库，可以轻松实现各种数据可视化效果。接下来，让我们一步步来学习如何绘制金字塔结构图。
阅读更多2024-10-05
认知杂谈96《反人性与顺人性》
举个例子来说，假如你知晓同事最近家里发生了一些事情，心情不太舒畅，那么在与他沟通工作的时候，你就可以多一些理解和耐心，而不是仅仅盯着工作结果不放。在这个过程中，我们不能仅仅关注自己的成长，还必须深刻理
阅读更多2024-10-05
手机使用技巧：8 个 Android 锁屏移除工具 [解锁 Android]
有时候，您会被锁定在自己的 Android 设备之外，而且似乎不可能重新进入。一个例子就是你买了一部二手手机，后来发现无法使用。另一种情况是你忘记了屏幕锁定密码和用于验证密码的 Google 帐户凭据
阅读更多2024-10-05
回执单识别-银行回单识别API-文字识别OCR API
银行回单识别接口简单高效易集成，只需要上传银行回单照片即可自动识别、提取银行回单上的文字信息，该接口一班由第三方接口来实现，例如翔云等平台，银行回单识别接口现已被广泛应用于企业财务管理、金融机构、电子
阅读更多2024-10-05
Java报错输出的信息究竟是什么？
相信看到这里，你会发出疑问，什么是栈帧呢？虚拟机栈中放入的栈帧到底是个什么东西呢？栈帧是虚拟机栈的基本存储单元，主要是由三部分组成：用于存放方法的参数和局部变量。这些变量在方法执行过程中会被频繁访问，
阅读更多2024-10-05

文本相似度计算

相关文章