python库（10）：SpaCy库实现NLP处理

🕗 发布于 2024-07-12 11:33 python 开发语言

1 SpaCy简介

自然语言处理（NLP）是人工智能领域中一个重要的分支。它旨在使计算机能够理解、解释和生成人类语言。Python中的SpaCy库提供了丰富的功能和工具，SpaCy是一个开源的软件库，用于处理和操作自然语言文本，可以帮助我们轻松进行各种NLP任务。相比于其他NLP库，SpaCy的特点在于其高效性和易用性。它专为处理大规模文本数据而设计，拥有快速的管道处理能力，使得它在实际项目中非常实用。

2 SpaCy安装

首先通过pip来安装SpaCy。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple spacy

结果如下：

安装完成后，还需要下载SpaCy模型。模型包含了词汇表、语料库以及各种必需的数据资源。在这里，我们下载一个最常用的英语模型en_core_web_sm：

python -m spacy download en_core_web_sm

但是国内下载会失败，建议手动安装，下载地址如下：

Releases · explosion/spacy-models · GitHub

我这边下载的是en_core_web_lg-3.7.1

下载后到使用命令进行安装：

pip install F:/en_core_web_lg-3.7.1-py3-none-any.whl

注意：

模型后缀有sm/md/lg，sm/md/lg为描述大小的缩写：small（小）、medium（中）、large（大）。

也就是说en_core_web_sm、en_core_web_md、en_core_web_lg分别对应三种不同大小的nlp模型。主要差别在于准确率和加载时间

3 导入并加载模型

import spacy

# 记在英文模型
nlp = spacy.load('en_core_web_lg')

4 基本功能

接下来，我们来看一些SpaCy的基本功能。

4.1 文本处理和标记化

SpaCy可以将一个文本分割成独立的标记（tokens），包括单词、标点符号等。

import spacy

# 记在英文模型
nlp = spacy.load('en_core_web_lg')

# 处理文本
text = "Hello, welcome to the world of natural language processing."
doc = nlp(text)

# 打印标记化结果
for token in doc:
    print(token.text)

结果如下：

4.2 词性标注

SpaCy能够识别每个词的词性（如名词、动词、形容词等）。

import spacy

# 记在英文模型
nlp = spacy.load('en_core_web_lg')

# 处理文本
text = "Hello, welcome to the world of natural language processing."
doc = nlp(text)

# 打印标记化结果
# for token in doc:
#     print(token.text)


for token in doc:
    print(f'{token.text}: {token.pos_}')

结果如下：

4.3 命名实体识别

命名实体识别（NER）是指识别文本中具有特定意义的实体，如人名、地名、组织机构等。

import spacy

# 记在英文模型
nlp = spacy.load('en_core_web_lg')

# 处理文本
text = "Long live China"
doc = nlp(text)

for ent in doc.ents:
    print(f'{ent.text}: {ent.label_}')

结果如下：

4.4 依存解析

SpaCy能够进行句法依存解析，以理解每个词在句子中的语法关系。

import spacy

# 记在英文模型
nlp = spacy.load('en_core_web_lg')

# 处理文本
text = "Hello, welcome to the world of natural language processing."
doc = nlp(text)

for token in doc:
    print(f'{token.text}: {token.dep_} -> {token.head.text}')

结果如下：

5 高级功能

5.1 词向量

词向量（Word Vectors）是用于表示单词的高维向量，能够捕捉单词间的语义关系。SpaCy支持预训练的词向量，可以直接加载和使用。

这边我换了一个模型en_core_web_md，各位可以按照上面的步骤自行安装。

import spacy

# 加载包含词向量的更大模型
nlp_large = spacy.load('en_core_web_md')

# 获取词向量
doc_large = nlp_large("king queen man woman")
for token in doc_large:
    print(f'{token.text}: {token.vector[:5]}')

结果如下：

5.2 文本相似度

文本相似度计算是NLP中的常见任务之一，用于判断两个文本之间的相似程度。SpaCy的词向量可以用来计算句子或文档的相似度。

import spacy

# 加载包含词向量的更大模型
nlp_large = spacy.load('en_core_web_md')

doc1 = nlp_large("I love machine learning.")
doc2 = nlp_large("I enjoy artificial intelligence.")

similarity = doc1.similarity(doc2)
print(f'Similarity: {similarity}')

结果如下：

5.3 自定义管道组件

SpaCy允许在其处理管道中添加自定义组件，以实现更个性化的处理。这对于特定任务非常有用。

import spacy
from spacy.language import Language

@Language.component("my_component")
def my_component(doc):
    # Do something to the doc here
    print(f"Custom component processed:{doc}")
    return doc

nlp = spacy.load('en_core_web_lg')
nlp.add_pipe("my_component", name="print_info", last=True)
print(nlp.pipe_names)
doc = nlp("This is a sentence.")

结果如下：

5.4 训练自定义模型

SpaCy还允许用户训练自己的自定义NER模型。这对于处理特定领域的文本非常有用。以下是一个简单的示例，展示了如何训练一个自定义NER模型。

import spacy
import random
from spacy.training.example import Example

# 创建空白模型
nlp = spacy.blank("en")

# 添加NER管道
ner = nlp.add_pipe("ner")

# 添加自定义实体标签
ner.add_label("GADGET")

# 定义训练数据
TRAIN_DATA = [
    ("Apple releases new iPhone.", {"entities": [(14, 20, "GADGET")]}),
    ("Google launches new Pixel phone.", {"entities": [(21, 26, "GADGET")]})
]

# 开始训练
nlp.begin_training()
for i in range(10):
    random.shuffle(TRAIN_DATA)
    losses = {}
    for text, annotations in TRAIN_DATA:
        doc = nlp.make_doc(text)
        example = Example.from_dict(doc, annotations)
        nlp.update([example], losses=losses)
    print(losses)

# 测试自定义模型
doc = nlp("Amazon announces new Kindle.")
for ent in doc.ents:
    print(ent.text, ent.label_)

结果如下：

原文地址：https://blog.csdn.net/u013938578/article/details/140353403

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[k8s源码]1.client-go集群外部署
下一篇：2.5 计算机网络

Java项目实战II基于Java+Spring Boot+MySQL的共享汽车管理系统(源码+数据库+文档)
在共享经济蓬勃发展的背景下，共享汽车作为一种新型的出行方式，正逐渐改变着人们的出行习惯。然而，随着共享汽车市场规模的不断扩大，车辆管理、用户服务、数据安全等问题日益凸显，传统的管理方式已难以满足当前的
阅读更多2024-11-19
【青牛科技】汽车收音机调频中频放大器——D1145
无线麦克风对讲机。
阅读更多2024-11-19
鸿蒙中位置权限和相机权限
State permissionsMessage: string | Resource = "\"获取当前位置\"需获取定位权限才能正常使用"this.perm
阅读更多2024-11-19
UE5 第一人称射击项目学习（二）
然后，把子弹的向前向量提升（在ue5的标准向量是以1cm为单位，所以虽然子弹跟随视角发射，但是速度太慢），从生成Actor的return Value处拉一根线，获取向前向量乘1000.运行程序，按
阅读更多2024-11-19
【软考】系统架构设计师-数据库设计基础
数据库设计基础知识
阅读更多2024-11-19
MongoDB 监控：确保数据库性能和可靠性
MongoDB 是一个流行的开源 NoSQL 数据库，以其灵活的文档模型和强大的查询语言而闻名。然而，为了确保 MongoDB 的性能和可靠性，监控是至关重要的。本文将讨论 MongoDB 监控的重要
阅读更多2024-11-19
电脑插入U盘，电脑显示新增了，但是双击却显示请将磁盘插入
`CHKDSK 无法供 RAW 驱动器使用` 表明内存卡的文件系统已损坏或丢失，当前处于 **RAW 文件系统** 状态。RAW 表示文件系统无法识别，可能由以下原因导致：
阅读更多2024-11-19
【论文阅读】InstructIR: High-Quality Image Restoration Following Human Instructions
图像恢复是一个基本问题，旨在从退化的图像中恢复出高质量的清晰图像。All-In-One 图像恢复模型能够利用退化特定的信息作为提示，引导恢复模型有效地恢复多种类型和不同程度的退化图像。本研究提出了首个
阅读更多2024-11-19
【Next】字体修改
next/font 包括任何字体文件的内置自动自托管。首先从 next/font/google 导入您想要使用的字体作为函数。（可以按住 ctrl 点进去 google 查看所有字体）然后导入该字体函
阅读更多2024-11-19
Springboot基于GIS的旅游信息管理系统
项目编号：springbootA100基于GIS的旅游信息管理系统是在旅游业迅速发展、旅游需求日益多样化的背景下应运而生的一套综合性信息管理平台，它通过整合旅游资源、提供实时信息、优化服务流程，旨在为
阅读更多2024-11-19

python库（10）：SpaCy库实现NLP处理

1 SpaCy简介

2 SpaCy安装

3 导入并加载模型

4 基本功能

5 高级功能

相关文章