LLM:学习清单 ing

🕗 发布于 2024-07-13 16:12 学习

根据模型的数据流程方向和自己的经验列出：

一、模型输入

分词器：BPE，BBPE
位置编码：绝对位置编码，三角函数编码，ROPE
词向量模型：词袋，监督学习模型；BGE，BCE，BERT
transformers：手写数据集构造类、数据集加载函数colloctor

二、模型结构

transformers：结构，解码器only为啥比编码器好，llama在原始解码器上的改进及原因
归一化：层归一化，RNSnorm，批归一化，Pre-LN和Post-LN的区别
激活函数：tanh，relu，gelu，silu
FFN结构
注意力机制：自注意力，多头注意力，分组查询注意力，多查询注意力（前两个要手写）
softmax和sigmoid函数
llama结构，GLM结构

三、模型推理

推理原理
解码策略：温度等参数，需要结合代码理解
KVcache
长度外推：滑动窗口，rope，位置插值,yarn的原理
推理部署框架：vllm，fastapi
多轮对话实现原理
流式输出实现原理

四、模型训练

分布式：数据并行，模型并行，流水线并行
deepseed经验
多机多卡经验
参数调优经验
数据配比经验
高效微调：lora原理，peft使用
混合精度
模型量化
ppo,KTO ,dpo原理
损失函数：交叉熵的手动实现，熵的定义，最大似然函数，MSE

五、数据工程

预训练、sft、dpo数据集格式
主流数据集

六、多模态大模型

模型架构：BILP2、LLAVA1.5，书生2
模态数据处理：多图，多视频，图文交错
模型两阶段训练经验
数据集构造经验

六、产品应用

RAG：作用，流程，性能调优经验
agent：作用，实现方法，优化经验

原文地址：https://blog.csdn.net/qq_43814415/article/details/140391081

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：第2章 Express 基础（二）
下一篇：nnUNet保姆级实战教程指南：从零到一，轻松驾驭深度学习医疗影像分析

第七章：TDengine SHOW 命令大全
SHOW命令用于获取TDengine数据库中的系统信息、元数据、状态等。通过SHOW命令，用户可以方便地查看数据库的各种信息，如数据库列表、表结构、索引、连接信息等。
阅读更多2024-11-18
【Linux内核剖析】深入分析inet_init的处理机制
inet_init是 Linux 内核中用于初始化 TCP/IP 协议栈的函数。它在内核启动时被调用，完成各种协议和数据结构的注册和初始化。
阅读更多2024-11-18
【C++进阶篇】——string类的使用
是 C++ 标准库的一部分，但它不是 STL 容器的一部分。STL 容器是指那些基于模板的容器，如std::list等。提供了类似于 STL 容器的功能，比如动态内存管理、迭代器支持等，但它的设计和实
阅读更多2024-11-18
Javaweb开发核心之应用上下文知识（笔记）
⽐比如：PageContext，ServletRequest，HttpSession，ServletContext；简介:讲解Javaweb作⽤用域对象介绍和ServletContext讲解。就是对象
阅读更多2024-11-18
Web Service 学习笔记
Web Service 即 web 服务，它是一种跨编程语言和跨操作系统平台的远程调用技术。Java 中共有三种 Web Service 规范：- JAX-WS(JAX-RPC): 基于 xml 数据
阅读更多2024-11-18
使用函数的选择法排序
其中a是待排序的数组，n是数组a中元素的个数。该函数用选择法将数组a中的元素按升序排列，结果仍然在数组a中。
阅读更多2024-11-18
Leetcode 3356. Zero Array Transformation II
Leetcode 3356. Zero Array Transformation II
阅读更多2024-11-18
图形最高分
游戏一开始，玩家在每一轮可以合并两个图形，当只有一个图形的时候游戏结束，每个图形都有一个大小，合并完成后的图形的大小为x+y,x和y分别为合并之前的两个图形，与此同时，玩家会获得x*y的分数。现在屏幕
阅读更多2024-11-18
nodejs入门（1）：nodejs的前后端分离
浏览器和前端web服务器交互，前端web服务器和后端web服务器进行交互，前端web服务器向后端的web服务器请求数据，对后端服务器得到请求后将数据传递给前端web服务器，格式化后由浏览器展示。好的，
阅读更多2024-11-18
wife_wife
在下面的信息中加上"__proto__":{"isAdmin":true}上网查了一下，用到了Javascript原型链污染攻击。用这个漏洞的前提是后端使用的语
阅读更多2024-11-18