python | spacy，一个神奇的 Python 库！

🕗 发布于 2024-05-31 10:59 python 开发语言 算法 pytorch github

本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。

大家好，今天为大家分享一个神奇的 Python 库 - spacy。

Github地址：https://github.com/explosion/spaCy

自然语言处理（NLP）是人工智能和数据科学中快速发展的领域。Python的spaCy库是一个现代化的、工业级的NLP库，提供了快速、高效和易于使用的API，适用于构建各种NLP应用。spaCy不仅支持多种语言，还包含丰富的预训练模型和工具，能够处理从分词、词性标注、命名实体识别到依存分析等任务。本文将详细介绍spaCy库，包括其安装方法、主要特性、基本和高级功能，以及实际应用场景，帮助全面了解并掌握该库的使用。

1 安装

要使用spaCy库，首先需要安装它。可以通过pip工具方便地进行安装。

以下是安装步骤：

pip install spacy

安装完成后，还需要下载预训练模型。以下是下载英文模型的命令：

python -m spacy download en_core_web_sm

安装完成后，可以通过导入spaCy库来验证是否安装成功：

import spacy
print("spaCy库安装成功！")

2 特性

高效的分词和词性标注：提供快速准确的分词和词性标注功能。
命名实体识别：内置命名实体识别（NER）模型，支持多种实体类型。
依存句法分析：支持依存句法分析，帮助理解句子结构。
词向量支持：内置预训练词向量，支持词嵌入和相似度计算。
多语言支持：支持多种语言，提供相应的预训练模型。

3 基本功能

3.1 分词和词性标注

使用spaCy库，可以方便地进行分词和词性标注。

以下是一个简单的示例：

import spacy

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 处理文本
doc = nlp("SpaCy is an amazing NLP library.")

# 分词和词性标注
for token in doc:
    print(f"Token: {token.text}, POS: {token.pos_}")

3.2 命名实体识别

spaCy库提供了强大的命名实体识别功能。

以下是一个示例：

import spacy

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 处理文本
doc = nlp("Apple is looking at buying U.K. startup for $1 billion.")

# 命名实体识别
for ent in doc.ents:
    print(f"Entity: {ent.text}, Label: {ent.label_}")

3.3 依存句法分析

spaCy库支持依存句法分析，以下是一个示例：

import spacy

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 处理文本
doc = nlp("SpaCy is an amazing NLP library.")

# 依存句法分析
for token in doc:
    print(f"Token: {token.text}, Dependency: {token.dep_}, Head: {token.head.text}")

3.4 词向量

spaCy库内置了预训练的词向量，支持词嵌入和相似度计算。

以下是一个示例：

import spacy

# 加载预训练模型
nlp = spacy.load("en_core_web_md")

# 获取词向量
token1 = nlp("apple")
token2 = nlp("orange")

# 计算相似度
similarity = token1.similarity(token2)
print(f"相似度: {similarity}")

4 高级功能

4.1 自定义分词规则

spaCy允许用户自定义分词规则。

以下是一个示例：

import spacy
from spacy.tokenizer import Tokenizer

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 自定义分词规则
def custom_tokenizer(nlp):
    return Tokenizer(nlp.vocab, rules={"appleorange": [{"ORTH": "appleorange"}]})

nlp.tokenizer = custom_tokenizer(nlp)

# 处理文本
doc = nlp("I have an appleorange and a banana.")
for token in doc:
    print(f"Token: {token.text}")

4.2 自定义命名实体

spaCy支持添加自定义命名实体。

以下是一个示例：

import spacy
from spacy.tokens import Span

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 添加自定义命名实体
doc = nlp("Elon Musk is the CEO of SpaceX.")
org = Span(doc, 4, 5, label="ORG")
doc.ents = list(doc.ents) + [org]

for ent in doc.ents:
    print(f"Entity: {ent.text}, Label: {ent.label_}")

4.3 训练自定义模型

spaCy支持训练自定义的NLP模型。

以下是一个示例，演示如何训练自定义命名实体识别模型：

import spacy
from spacy.training.example import Example
from spacy.util import minibatch, compounding

# 创建空白模型
nlp = spacy.blank("en")

# 创建命名实体识别组件并添加到管道中
ner = nlp.add_pipe("ner")

# 添加标签
ner.add_label("ORG")

# 准备训练数据
TRAIN_DATA = [
    ("SpaceX is a company.", {"entities": [(0, 6, "ORG")]}),
    ("Google is another company.", {"entities": [(0, 6, "ORG")]})
]

# 训练模型
optimizer = nlp.begin_training()
for itn in range(10):
    losses = {}
    batches = minibatch(TRAIN_DATA, size=compounding(4.0, 32.0, 1.001))
    for batch in batches:
        for text, annotations in batch:
            doc = nlp.make_doc(text)
            example = Example.from_dict(doc, annotations)
            nlp.update([example], drop=0.5, sgd=optimizer, losses=losses)
    print(losses)

# 测试模型
doc = nlp("SpaceX is an amazing company.")
for ent in doc.ents:
    print(f"Entity: {ent.text}, Label: {ent.label_}")

5 实际应用场景

5.1 文本分类

假设开发一个文本分类系统，用于将客户反馈分类为不同的主题，可以使用spaCy库实现这一功能。

import spacy
from spacy.training.example import Example

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 添加文本分类器
textcat = nlp.add_pipe("textcat", last=True)
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")

# 准备训练数据
TRAIN_DATA = [
    ("I love this product!", {"cats": {"POSITIVE": 1, "NEGATIVE": 0}}),
    ("This is the worst experience ever.", {"cats": {"POSITIVE": 0, "NEGATIVE": 1}})
]

# 训练模型
optimizer = nlp.begin_training()
for itn in range(10):
    losses = {}
    for text, cats in TRAIN_DATA:
        doc = nlp.make_doc(text)
        example = Example.from_dict(doc, cats)
        nlp.update([example], drop=0.5, sgd=optimizer, losses=losses)
    print(losses)

# 测试模型
doc = nlp("I hate this!")
print(doc.cats)

5.2 情感分析

假设开发一个情感分析系统，用于分析社交媒体上的用户情感，可以使用spaCy库实现这一功能。

import spacy
from spacy.training.example import Example

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 添加文本分类器
textcat = nlp.add_pipe("textcat", last=True)
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")

# 准备训练数据
TRAIN_DATA = [
    ("I am very happy today!", {"cats": {"POSITIVE": 1, "NEGATIVE": 0}}),
    ("I feel so sad and depressed.", {"cats": {"POSITIVE": 0, "NEGATIVE": 1}})
]

# 训练模型
optimizer = nlp.begin_training()
for itn in range(10):
    losses = {}
    for text, cats in TRAIN_DATA:
        doc = nlp.make_doc(text)
        example = Example.from_dict(doc, cats)
        nlp.update([example], drop=0.5, sgd=optimizer, losses=losses)
    print(losses)

# 测试模型
doc = nlp("This is an amazing day!")
print(doc.cats)

5.3 实体识别与信息抽取

假设开发一个信息抽取系统，需要从新闻文章中提取公司名称和产品名称，可以使用spaCy库实现这一功能。

import spacy

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 处理文本
doc = nlp("Apple announced the release of the new iPhone 13 in their latest event.")

# 命名实体识别
for ent in doc.ents:
    if ent.label_ in ["ORG", "PRODUCT"]:
        print(f"Entity: {ent.text}, Label: {ent.label_}")

6 总结

spaCy库是一个功能强大且易于使用的自然语言处理工具，能够帮助开发者高效地处理各种NLP任务。通过支持高效的分词和词性标注、命名实体识别、依存句法分析、词向量、多语言处理等特性，spaCy库能够满足各种自然语言处理需求。本文详细介绍了spaCy库的安装方法、主要特性、基本和高级功能，以及实际应用场景。希望本文能帮助大家全面掌握spaCy库的使用，并在实际项目中发挥其优势。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。

原文地址：https://blog.csdn.net/csdn_xmj/article/details/139300898

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：快手自动私信获客软件，精准定位潜在客户
下一篇：JAVA：多线程常见的面试题和答案

2024年网络安全（黑客技术）三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-15
数据结构Python版
2.3.3 双链表双链表和链表一样，只不过每个节点有两个链接——一个指向后一个节点，一个指向前一个节点。此外，除了第一个节点，双链表还需要记录最后一个节点。每个结点为DLinkNode类对象，包括存储
阅读更多2024-11-15
连接数据库导出数据库信息支持excel pdf html markdown
1. java -jar运行后连接数据库即可，支持多种数据库。2.支持多种导出格式。
阅读更多2024-11-15
【解决】Layout 下创建槽位后，执行 Image 同步槽位位置后表现错误的问题。
开发平台：Unity 6.0编程语言：CSharp编程平台：Visual Studio 2022。
阅读更多2024-11-15
乐理的学习（简谱过渡五线谱）
调号在五线谱开头标注多个“♯”或“♭”每个“♯”或“♭”对应一个音符位置的升降，比如：C大调（无升降）是自然大调的基础形式，不需要额外调号。G大调：在调号中添加一个“F♯”，表示所有的F都要弹F♯。D
阅读更多2024-11-15
CSS回顾-颜色单位详解
本文介绍了 CSS 中的颜色单位相关知识。包括颜色名称、十六进制颜色值、RGB、RGBA、HSL、HSLA 等颜色单位的表示方式、特点及使用场景。还阐述了颜色单位之间（颜色名称与十六进制、十六进制与
阅读更多2024-11-15
Spring Boot中集成Redis与MySQL
用途：将键或简单的值序列化为字符串。适用场景：通常用于键的序列化，确保键在 Redis 中以字符串存储，以便于直接查看和管理。用途：将对象序列化为 JSON 格式的字符串，并支持 JSON 反序列化回
阅读更多2024-11-15
linux配置nginx
状态如果是Active: active (running)则是正常的。
阅读更多2024-11-15
C03S04-Linux网络之软件仓库、SSH和NFS
SSH是一种安全通道协议，主要用于远程登录到服务器、执行远程命令、传输文件以及管理服务器等。默认的端口号是TCP/22。NFS（网络文件系统，Network File System）是一种件系统协议，
阅读更多2024-11-15
无人机飞手在保家卫国上重要性技术详解
无人机飞手通过操作无人机上的通信设备，可以将侦察到的情报信息及时传输给指挥系统，同时也可以接收指挥系统的指令进行任务调整。无人机飞手经过专业培训，不仅掌握了无人机在不同气候、地形条件下的飞行技巧，还具
阅读更多2024-11-15

python | spacy，一个神奇的 Python 库！

1 安装

2 特性

3 基本功能

3.1 分词和词性标注

3.2 命名实体识别

3.3 依存句法分析

3.4 词向量

4 高级功能

4.1 自定义分词规则

4.2 自定义命名实体

4.3 训练自定义模型

5 实际应用场景

5.1 文本分类

5.2 情感分析

5.3 实体识别与信息抽取

6 总结

相关文章