彩蛋岛 销冠大模型案例
彩蛋岛 销冠大模型案例
任务:
https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales
视频
https://www.bilibili.com/video/BV1f1421b7Du/?vd_source=4ffecd6d839338c9390829e56a43ca8d
项目git地址:
https://kkgithub.com/PeterH0323/Streamer-Sales
底层技术:
🚀 KV cache + Turbomind 推理加速
📚 RAG 检索增强生成
🎙️ ASR 语音转文字输入
🔊 TTS 文字转语音输出
🦸 数字人解说视频生成 SD 来生成视频:comfyUI
🌐 Agent 使用网络查询实时快递等信息
图片扣字; 图片进行长边裁剪;图片检测识别
xtuner 微调训练
在线体验:
https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales
笔记
功能:主播文案一键生成+商品解说
输入:给定商品特点
目标:激发用户购买意愿
架构:
数据集设计
主播视角;性格,说话方式
用户视角:可能关心问题
产品视角: 特性,亮点
训练
xtuner zero2 训练:
xtuner train finetune_configs/internlm2_chat_7b/internlm2_chat_7b_qlora_custom_data.py --deepspeed deepspeed_zero2
数字人-文生图流程
成熟的赛道是直接使用真人录制好的视频,然后 TTS 之后直接生成口型贴到人脸上,这种方法可控性强,而且获得成本低,已经大量推广了。
comfyui
生成人像图
DW Pose 生成骨骼图
ControlNet 控制人物姿态
AnimateDiff 生成视频
插帧提升帧率
提升分辨率
ComfyUI 环境搭建
https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales#2-%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA
文生图流程
首先加入 sd checkpoint ,和 vae 模型,vae 可选,模型可选
DW Pose 生成骨骼图 & ControlNet 控制人物姿态
AnimateDiff 生成视频
TTS 文字转语音
conda activate streamer-sales
uvicorn server.tts.tts_server:app --host 0.0.0.0 --port 8001 # tts
ASR 语音识别生成文字
conda activate streamer-sales
uvicorn server.asr.asr_server:app --host 0.0.0.0 --port 8003 # asr
异步
uvicorn
感觉
技术点比较全面,适合参考。
原文地址:https://blog.csdn.net/duankaifei/article/details/142346409
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!