pytorch-时间序列

🕗 发布于 2024-07-06 19:15 pytorch 人工智能 python

1. 时间序列

具有时间相关性的序列叫做时间序列，比如：语音、文本句子

2. word embedding

2.1 one hot

针对句子来说，可以用[seq_len, vector_len]
有多少个单词vector_len就是多少，比如汉字有3500个，句子长度是5，那么就表示为[5, 3500]
如下图：
vector index 0为1表示Rome, index 1为1表示Pairs，其他位置都为0
在这里插入图片描述
one hot编码的问题是：比较稀疏，数据长度可能比较长，但是有用的数据比较少。比如：英文常用单词有2-4w个，那么这种方式就很难用了。

2.2 word2vec

利用语言相关性，相近或者相反
如下图：
king 与kings最相近，值也就越大，这个值是通过两个单词向量的cos夹角计算的（角越大值越小）
在这里插入图片描述

2.3 GloVe

下图是自己建立一个单词向量表，有两个单词索引是0和1，然后使用torch.nn.Embedding(2, 5)生成单词向量表，即2个单词，每个单词用5个dimension vector表示。
在这里插入图片描述
torch.nn.Embedding(2, 5)生成的词向量表，采用随机值进行初始化，这种随机值初始化后的向量值，并不能反映特定单词与单词之间的余弦距离以及不同单词之间的相关性。而且还需要根据特定的文本对其进行训练，以符合特定业务场景的需求。
Glove是预定义的，他人已经根据大量的文本数据训练好的数据集，可以直接使用，一般不需要自己修改。

glove使用见下图：
在这里插入图片描述

原文地址：https://blog.csdn.net/wyw0000/article/details/140169124

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于java+springboot+vue实现的药店管理系统（文末源码+Lw）285
下一篇：ffmpeg之interrupt_callback

数据仓库-数据质量规范
改层数据是由上游ODS层的数据进行清洗，转化，过滤，归一化，汇总而生产的，具有高度的一致性，同时也是DWS和DM层的基石。数据质量管理是测度、提高和验证质量，以及整合组织数据的方法等一套处理准则，而体
阅读更多2024-09-27
python功能测试
是 Python 中非常流行的测试框架，简单易用，功能强大，适合编写单元测试和集成测试。是 Python 自带的单元测试框架，用于编写、组织和运行测试。的语法简单而灵活，非常适合写 Python 的测
阅读更多2024-09-27
企微SOP：构建标准化运营流程，驱动企业高效增长
企业应高度重视企微SOP的建设工作，通过明确目标、制定计划、跨部门协作、持续优化与迭代等策略，构建一套符合企业实际、高效实用的企微SOP体系，为企业的持续高效增长提供有力支撑。1、提升运营效率：通过明
阅读更多2024-09-27
鸿蒙开发（NEXT/API 12）【硬件（取消注册智慧出行连接状态的监听）】车载系统
取消注册智慧出行连接状态的监听。
阅读更多2024-09-27
python select interpreter vscode 配置
python select interpreter 配置
阅读更多2024-09-27
鸿蒙开发（NEXT/API 12）【硬件（获取出行业务事件信息）】车载系统
获取出行业务事件信息。
阅读更多2024-09-27
【Gitee自动化测试0】日程
研究junit + gitee的ci/cd自动化测试，写文档导出PDF。
阅读更多2024-09-27
Git 使用方法
方法二用的比较多将仓库链接复制在 git base here ----> git clone 仓库链接。
阅读更多2024-09-27
宠物智能听诊器：打造宠物健康的数字守护神
这款设备的设计充满了人性化，它考虑到了宠物主人的需求，提供了易于理解的健康指标和建议。宠物智能听诊器的出现，不仅提升了宠物的健康水平，也提高了宠物主人的生活质量。它倡导的是一种预防为主的健康管理理念，
阅读更多2024-09-27
WinHttp辅助类封装, GET, POST, 多线程下载文件
基于WinHttp封装, 实现多线程文件下载, GET请求, POST请求
阅读更多2024-09-27