使用 lstm + crf 实现NER

🕗 发布于 2024-09-27 10:23 lstm 机器学习 概率论

条件随机场CRF

前言

CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布的模型。
特点：假设输出随机变量构成马尔卡夫随机场。
CRF可以用于不同的预测问题。
但是主要讨论线性链条件随机场，这时问题变成了由输入序列对输出序列的判别模型，形式为对数线性模型，学习方法通常是极大似然估计火正则化的极大似然估计
三个基本问题：概率计算问题，学习问题，预测问题

Step1:概率无向图模型

概率无向图又称马尔可夫随机场。是一个可以由无向图表示的联合概率分布。

1.模型定义

定义无向图表示的随机变量之间存在成对马尔可夫性，局部马尔可夫性，全局马尔可夫性。

成对马尔可夫性：u和v式无向图G中任意两个没有边连接的节点，对应Y_u和Y_v。其他所有节点为O，对应Y_o。成对马尔可夫性指给定Y_o的条件下Y_u和Y_v是条件独立的

$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$

局部马尔可夫性：

在这里插入图片描述

全局马尔可夫性：

在这里插入图片描述

2.概率无向图模型

无向图G中，联合概率分布满足成对，局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型或马尔可夫随机场

3.因子分解

概率无向图模型最大的特点就是易于因子分解。

团与最大团的概念

概率无向图模型的联合概率可以表示为最大团上的随机变量的函数的乘积的形式。

在这里插入图片描述

Step2:条件随机场的定义

1.定义

在这里插入图片描述

2.参数化形式

在这里插入图片描述

3.简化形式

在这里插入图片描述

4.矩阵形式

在这里插入图片描述

Step3:概率计算

给定条件随机场P(Y|X)，输入序列 x 和输出序列 y ，计算条件概率P(Y_i=y_i | x)，P(Y_{i-1} = y_{i-1} , Y_i = y_i | x)以及相应的数学期望的问题。

1.前向-后向算法

前向向量 $\alpha_i(x)$

在这里插入图片描述

递推公式：

后向向量 $\beta_i(x)$ ，同理

在这里插入图片描述

Z(x)由前向-后向向量得到

在这里插入图片描述

2.概率计算

在这里插入图片描述

3.期望值计算

在这里插入图片描述

Step4:学习算法

具体优化实现算法：改进迭代尺度法IIS、梯度下降法、拟牛顿法

1.改进迭代尺度法

在这里插入图片描述

其中，

$\delta=(\delta_1,\delta_2,...,\delta_K)^T$ 为向量增量，更新参数为 $w+\delta$

在这里插入图片描述

2.BFGS法

在这里插入图片描述

Step5:预测算法

给定条件随机场 $P (Y ∣ X)$ 和输入序列（观测序列）x，求条件概率最大的输出序列（标记序列） $y^*$ 。

即对观测序列进行标注

维特比算法

在这里插入图片描述

其中，

在这里插入图片描述

Step6:PyTorch-crf

note : pytorch-crf 暴露为一个单个 CRF 类，这个类继承自 Pytorch 的 nn.Module

所以他能做到一个普通的网络都能能做到的事情
- 比如，把 module 转到设备中
- 前向传播和反向传播
- module 的参数管理等
知道以上那一点，一切都好说了

在这里插入图片描述

计算概率

给定发射分数的，计算一个序列标签的对数概率

在这里插入图片描述

如果有填充，需要传递掩码矩阵张量

在这里插入图片描述

Step7:使用 LSTM + Pytorch-CRF 实现 NER

1.数据集

在这里插入图片描述

格式
- 貌似是个 tsv，可以利用这一点对文件进行分析
- 空行表示一个句子结束
- 乍一看数据集质量貌似不太好
思路
- 数据集不多，类别分的那么多没必要，把NAM和NOM合并好了，只保留 GPE, LOC, ORG, PER
- 用空行表示一句的隔断
- 写一个脚本吧～把数据保存成字典(代码在上方资源处自取)
- 后来又写了两个，把词汇表和类别顺便加上了

2.代码

上方资源处自取
这里我嫌收敛太慢了,使用了学习率调度器，调度策略采用了第一次退火到最大学习率的学习率调度器。
```
scheduler = OneCycleLR(optimizer, max_lr=0.05, steps_per_epoch=len(train_loader), epochs=num_epochs)
```
- 最大学习率是 0.05，优化器学习率是 5e-4 ，目的是前期加速收敛
- 也就是说，学习率会从 0.0001 上升到 0.01 再慢慢退回到 0.0001
分为标准的训练集，开发集，测试集
- 每轮打印信息
最终结果，貌似没有完全收敛
- 因为这我的 colab 突然坏掉了，不能用 gpu，所以这次是用自己电脑跑的，苹果的M 芯片还是慢了点，不如 A100。而且这周有事，我就训练了两次就不整了
最后，我把双向改单向貌似效果好多了，但是没时间了，有急事要出去了
- 10轮就差点干了之前50轮的效果

原文地址：https://blog.csdn.net/weixin_46034279/article/details/142583688

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：springcloud为什么采用Http而非RPC
下一篇：Acwing 最小生成树

管家婆工贸ERP BR039.采购订单关联MRP明细表
ⅲ. 由于以上报表是复制系统原有功能的基础上增加定制功能，所以如果在以后版本升级中复制参考的系统中的原报表增加了新功能，该定制插件虽然可以支持升级到新版本，但是升级后不包含新版本中增加的新功能，如需变
阅读更多2024-11-17
3271.哈希分割字符串
这个问题通过简单的字符串处理和数学运算实现了字符串的哈希转换。算法时间复杂度为 O(n)，其中 n 是字符串的长度。这种方法高效且易于理解，非常适合用来解决类似的字符串处理问题。
阅读更多2024-11-17
Java核心知识体系-线程管理
在Java程序开发中，线程管理是一个至关重要的方面。它涉及到如何有效地创建、调度、同步和销毁线程，以确保程序的性能、响应性和稳定性。以下是对Java线程管理的详细探讨。
阅读更多2024-11-17
WebChromeClient 方法分类及其功能
`WebChromeClient` 是 Android `WebView` 的关键组件，处理网页交互事件。本文介绍了其主要回调方法及注意事项，帮助开发者提升 Web 应用的用户体验。
阅读更多2024-11-17
服务端高并发分布式结构进阶之路
服务端高并发分布式结构演进之路
阅读更多2024-11-17
物理hack
手把手教你黑进你朋友的电脑，然后给他关机，哈哈哈，来玩吧网络安全红队（成长ing）,学习分享
阅读更多2024-11-17
R 语言科研配色 --- 第 15 期
在使用 R 语言进行科研绘图时，颜色的选择是一件让人特别纠结的事情。本系列文章介绍了 R 语言科研绘图时常用的一些配色。本账号内所有原创内容，未经允许禁止转载和用于商业用途，违者必究。为了解决 R 语
阅读更多2024-11-17
【Android、IOS、Flutter、鸿蒙、ReactNative 】静态数组
Android Java 静态数组、Android Kotlin 静态数组、IOS Object-c 静态数组、IOS Swift 静态数组、鸿蒙静态数组、React Native 静态数组。
阅读更多2024-11-17
蓝牙 HFP 协议详解及 Android 实现
蓝牙免提协议（HFP，Hands-Free Profile）是用于支持免提通话的标准协议，广泛应用于车载蓝牙系统、蓝牙耳机等设备。HFP提供了拨号接听电话挂断电话以及语音拨号等功能，同时支持同步手机电
阅读更多2024-11-17
lua实现雪花算法
雪花算法（Snowflake Algorithm）是一种用于生成唯一ID的分布式生成算法，最初由Twitter开发。它的主要目的是在分布式系统中生成唯一的、时间有序的ID，这些ID通常用于数据库的主键
阅读更多2024-11-17

使用 lstm + crf 实现NER

条件随机场CRF

前言

Step1:概率无向图模型

1.模型定义

2.概率无向图模型

3.因子分解

Step2:条件随机场的定义

1.定义

2.参数化形式

3.简化形式

4.矩阵形式

Step3:概率计算

1.前向-后向算法

2.概率计算

3.期望值计算

Step4:学习算法

1.改进迭代尺度法

2.BFGS法

Step5:预测算法

维特比算法

Step6:PyTorch-crf

计算概率

Step7:使用 LSTM + Pytorch-CRF 实现 NER

1.数据集

2.代码

相关文章