如何理解机器学习中的向量？

🕗 发布于 2025-01-15 00:04 机器学习 人工智能

在机器学习中，向量是一个核心概念，用于表示数据、特征或其他数学结构。向量是线性代数的基本对象，在机器学习中，它的意义超越了纯数学的定义，承载着信息的表示、计算和模型学习等重要功能。以下是对机器学习中向量的详细理解：

1. 向量的数学定义

从数学上看，向量是一个有序数列，可以表示为：

向量可以看作是几何空间中的一个点或方向。

2. 向量在机器学习中的意义

(1) 数据表示

在机器学习中，向量通常用来表示样本数据或特征：

(2) 空间表示

向量可以视为数据在 n-维空间中的点：

在二维空间，向量是一个平面上的点。
在三维或更高维空间，向量对应更复杂的几何结构。
向量之间的关系（如距离、方向）反映了数据样本之间的相似性或差异。

(3) 模型参数

在机器学习模型中，参数通常以向量形式表示。

优化算法（如梯度下降）通过调整参数向量来最小化损失函数。

(4) 特征变换

向量还可以表示数据的特征变换。例如：

将文本表示为词向量（Word Embedding）。
主成分分析（PCA）中，将高维向量投影到低维空间。

3. 向量的操作

(1) 向量的基本运算

(2) 向量之间的关系

距离（欧几里得距离）：表示两个向量在几何空间中的距离：

余弦相似度：衡量两个向量方向的相似性（而非大小）：

4. 向量在机器学习中的应用

(1) 数据特征化

数据向量化是机器学习的核心步骤。例如：

文本处理：将句子或文档表示为向量（如 TF-IDF 或词嵌入）。
图像处理：将图像像素值转换为向量。

(2) 模型计算

模型中的输入、输出、权重和梯度通常以向量形式表示：

线性回归的预测公式： y=w⋅x+b
神经网络中的张量运算，本质上是多维向量的计算。

(3) 相似性计算

在推荐系统或信息检索中，向量用于计算相似性：

用户和商品的特征向量用于推荐。
文本向量化后计算语义相似度。

5. 向量与高维空间

(1) 高维向量

机器学习中，向量的维度常常很高（如文本处理中的词袋模型可能有数千维或更多）。
高维向量的特点：
- 数据稀疏（大多数分量为零）。
- 可视化困难。

(2) 维度灾难

随着向量维度的增加，样本之间的距离趋于均匀，模型可能难以区分数据。

常用方法：
- 降维：如 PCA、t-SNE。
- 特征选择：选择重要特征，减少维度。

6. 向量在深度学习中的扩展

(1) 词嵌入（Word Embedding）

自然语言处理（NLP）中，将单词表示为稠密向量，捕捉语义信息（如 Word2Vec、GloVe）。
示例：单词 "king" 的向量可能类似于 "queen"。

(2) 特征嵌入

在推荐系统中，将用户和物品表示为向量，并通过向量间的相似性进行推荐。

(3) 张量

向量可以看作是张量的一种形式（1维张量）。在深度学习中，张量表示更高维度的数据结构。

7. 理解向量的直观类比

向量是容器：它存储了描述一个对象的多个属性。
- 示例：描述一个人的向量可能是 [年龄,身高,体重][年龄, 身高, 体重]。
向量是方向：在几何中，向量可以表示方向和大小；在机器学习中，向量也可以表示某种趋势或特征组合。

8. 总结

向量在机器学习中是表示和计算的基础单位，无论是描述数据、参数优化，还是特征抽象，都离不开向量的作用。理解向量不仅是掌握机器学习的数学基础，也是深入学习高阶算法和模型的必要准备。

原文地址：https://blog.csdn.net/liruiqiang05/article/details/145116438

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：计算机视觉：解锁未来智能世界的钥匙
下一篇：Unity热更新之 Addressables(2) 本地/远端打包流程测试

深入学习 Python 爬虫：从基础到实战
爬虫，顾名思义，是一种自动化的网络数据抓取程序。它通过模拟人类的浏览行为，向指定的 Web 服务器发送请求，获取网页数据，然后从中提取出有用的信息。获取公共网站的数据。监控某些网页的变化。搜集数据用于
阅读更多2025-01-15
网络原理（九）：数据链路层 - 以太网协议 & 应用层 - DNS 协议
数据链路层 - 以太网协议, mac 地址, MTU, ARP & 应用层 - DNS 协议
阅读更多2025-01-15
20250114面试鸭特训营第22天
20250114面试鸭特训营第22天
阅读更多2025-01-15
0112java面经
如果当前存在事务，则加入该事务；如果当前没有事务，则创建一个新事务。示例场景与代码示例假设我们有两个方法。
阅读更多2025-01-15
Linux ssh连接算法配置
在Linux系统中，SSH连接的算法配置主要涉及密钥交换算法、加密算法和消息认证码算法。
阅读更多2025-01-15
操作系统之磁盘
磁盘上的每个扇区都可以通过一个三元组地址来唯一标识，即柱面号（磁道号）、盘面号（磁头号）和扇区号（块号）。例如，磁盘通常是按扇区顺序读取的，而光盘通常是从中心向外读取的。：磁盘盘面上的数据存储在一组同
阅读更多2025-01-15
【容器逃逸实践】挂载/dev方法
通过配置–privileged参数可以让docker以特权模式启动，当容器以特权模式启动时，docker容器可以访问主机上的所有设备，且有mount命令挂载权限。
阅读更多2025-01-15
Linux 服务器挖矿木马防护实战：快速切断、清理与加固20250114
详解Linux服务器挖矿木马的快速响应、全面清理和系统加固方案，助力运维人员提升应急处置能力。
阅读更多2025-01-15
Golang——并发控制
本文介绍Go并发，同步，顺序执行，设计的一些常见的场景，顺序执行主要用channel实现。在这种同步信号的使用场景中，使用无缓冲通道，可以选择不关闭通道。
阅读更多2025-01-15
c#删除文件和目录到回收站
之前在c++上遇到过这个问题，折腾许久才解决了，这次在c#上再次遇到这个问题，不过似乎容易了一些，亲测代码如下，两种删除方式都写在代码中了。
阅读更多2025-01-15

如何理解机器学习中的向量 ？