大模型|基础——长短时记忆网络
LSTM
遗忘门
遗忘门,是否进行遗忘。
如果通过计算,计算出来的结果为0,就选择遗弃。
如果遗忘,相当于对过去信息直接进行丢弃。
其中
σ
(
)
\sigma()
σ()代表激活函数,会将输出归于0到1之间的值。
输入门
整合信息
如果
f
t
=
0
f_t=0
ft=0相当于屏蔽了
C
t
−
1
C_{t-1}
Ct−1
h
t
−
1
h_{t-1}
ht−1这个参数是来自上一层的,也就是对应地,也要给下一层通过计算提供出
h
t
h_t
ht。
特点
实现神经单元的内部计算
门控控制——可以动态选择信息
如果信息不重要,可以通过遗忘门进行遗忘
在大数据量的情况下,可有效缓解梯度
原文地址:https://blog.csdn.net/Fangyechy/article/details/135857024
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!