前端大模型入门：流式调用llm时前端该如何处理响应数据？

🕗 发布于 2024-09-23 15:25 前端

利用大模型开发应用时，我们有时候要第一时间给出用户相应，也就是使用流式调用的方式。这时候前端处理响应，就需要特殊的处理：利用处理可读流的方式从响应中读取数据。

随着大语言模型（LLM）在各种应用中的广泛使用，如何高效地从服务器获取模型生成的长文本响应成为一个重要问题。传统的HTTP请求模式通常等待服务器生成完整的响应内容再返回给客户端。然而，流式调用（streaming）通过分段传输部分响应，能提高实时性和用户体验。在此场景中，HTTP流式调用被广泛应用，尤其是在与LLM（如OpenAI的GPT等）进行交互时。

本文将介绍LLM的HTTP API流式调用的机制，并深入探讨前端如何处理流式响应，以实现实时的、渐进式的结果呈现。

一、什么是HTTP API流式调用？

HTTP API流式调用（HTTP Streaming）是一种传输方式，服务器不会等待所有的数据生成完毕再返回给客户端，而是将响应数据逐步分段发送。当大语言模型生成内容时，服务器可以通过流式传输，将文本按块传递给前端，前端可以立即呈现这些部分内容，无需等待完整响应。

流式响应的基本流程：

客户端请求：前端通过HTTP请求向服务器发出调用，通常是POST请求，附带需要生成内容的提示（prompt），以及相关的参数。
服务器处理并分段响应：服务器开始处理请求，但不等待处理结束，先将部分生成的文本作为响应的一个数据块（chunk）发送给客户端。
客户端逐步接收并处理数据块：客户端持续监听流式响应，接收每个数据块并实时处理或呈现。
连接关闭：服务器在生成完毕后关闭连接，客户端停止接收数据。

这种方式特别适合用于大语言模型的文本生成任务，因为大规模模型生成的内容可能会很长，逐步输出可以改善用户的等待体验。

二、如何实现LLM的HTTP API流式调用？

以一个调用LLM（如OpenAI GPT模型）的流式HTTP API为例，下面是一个使用fetch来发起流式调用的典型前端实现流程。国内的各个大模型，调用方式差不多，参数也类似，甚至还会有openai兼容的openapi接口

const fetchStreamData = async (prompt) => {
  const response = await fetch('https://api.openai.com/v1/completions', {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
      'Authorization': `Bearer YOUR_API_KEY`
    },
    body: JSON.stringify({
      model: 'gpt-4',
      prompt: prompt,
      stream: true // 启用流式响应
    })
  });

  // 检查响应状态
  if (!response.ok) {
    throw new Error('Network response was not ok');
  }

  // 获取响应的可读流并处理流数据
  const reader = response.body.getReader();
  const decoder = new TextDecoder('utf-8');
  let done = false;
  
  while (!done) {
    // 读取流中的下一个数据块
    const { value, done: readerDone } = await reader.read();
    done = readerDone;
    
    // 将数据块解码为字符串
    const chunk = decoder.decode(value, { stream: true });
    console.log(chunk);  // 处理或显示每一块数据
    // ***** 这需要注意，各个大模型的分块数据结构可能不一样，甚至会有可能出现部分数据的情况，要单独兼容和处理哦
    // 以及有些模型内容的路径不一样，一次性响应在content，但是流式在delta字段下
  }
};

1. 请求设置：

fetch函数用于发起POST请求，stream: true选项通知服务器启用流式传输。
请求体中包含模型ID和提示词prompt，以及其他必要参数（如API密钥）。

2. 读取流数据：

使用response.body.getReader()获取一个流的阅读器（Reader），该阅读器允许我们按数据块逐步读取响应。
TextDecoder将字节数据解码为文本格式，确保能够正确处理流传输中的文本数据。

3. 逐块处理数据：

通过reader.read()逐步读取每个数据块，value包含读取到的字节数据，done表示流是否已结束。
chunk是解码后的文本数据，每次接收到新的数据块时可以实时处理或显示。

三、前端如何处理流式响应？

当后端返回流式响应时，前端可以逐步接收并更新UI，提供更好的用户交互体验。以下是前端处理流式响应的关键步骤。

1. 逐步更新界面

每当接收到一个新的数据块，前端可以立即将其更新到UI上，而不必等待完整的响应。这种实时更新的机制对于聊天机器人、搜索建议等场景尤为重要。例如：

const chatBox = document.getElementById('chat-box');

const updateChat = (text) => {
  // 将新数据块追加到界面上
  chatBox.innerHTML += `<p>${text}</p>`;
};

// 在逐块接收时更新
while (!done) {
  const { value, done: readerDone } = await reader.read();
  const chunk = decoder.decode(value, { stream: true });
  updateChat(chunk);  // 实时更新聊天框
}

通过这种方式，用户能够看到模型生成内容的部分结果，即使整个请求尚未完成，提升了用户体验。

2. 处理中断或错误

在流式调用中，网络连接可能会中断，或者服务器可能会返回错误。前端应该做好错误处理，例如：

if (!response.ok) {
  console.error('Error with the request');
  return;
}

reader.read().then(processStream).catch(error => {
  console.error('Error while reading stream:', error);
});

在中断时，前端可以选择显示错误消息，或尝试重新发起请求以重新建立连接。

3. 流数据的拼接与处理

由于流传输的数据是分块发送的，前端可能需要将这些分段数据拼接起来，形成完整的响应。例如：

let fullResponse = '';

while (!done) {
  const { value, done: readerDone } = await reader.read();
  const chunk = decoder.decode(value, { stream: true });
  fullResponse += chunk;  // 拼接完整响应
}

4. 自动滚动和用户交互优化

对于聊天机器人或类似应用，前端可以设置自动滚动，使得用户在流式数据逐步加载时能够始终看到最新的内容。

const scrollToBottom = () => {
  chatBox.scrollTop = chatBox.scrollHeight;
};

updateChat(chunk);
scrollToBottom();  // 更新后自动滚动

四、流式调用的优势

提升用户体验：通过流式传输，用户能够实时看到部分生成的内容，而不需要等待整个模型生成完毕，从而减少了感知延迟。
减少服务器压力：在某些场景下，流式调用可以减少服务器压力，因为服务器可以按需逐步处理和发送数据，而不需要一次性生成和发送大量数据。
增强交互性：用户能够根据逐步收到的内容进行进一步操作，如在对话中实时反馈等。

五、总结

HTTP API流式调用为大语言模型的响应提供了更高效和实时的交互方式。通过流式调用，前端可以逐步接收模型生成的部分数据，并即时呈现，从而提升用户体验。前端在实现流式调用时，需要处理数据分块的拼接、实时更新界面和处理可能的中断错误。通过这种方式，可以在交互密集的应用场景（如聊天机器人、自动化助手等）中大幅改善用户的使用体验。

处理流式调用，尤其是国产大模型的兼容是一个重复的工作，后面的章节如果有空，我会讲讲如何基于rxjs或者langchain.js简化这个工作

原文地址：https://blog.csdn.net/m0_38015699/article/details/142436990

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：canal消费binlog异常排查
下一篇：ESP32/ESP8266开发板单向一对多ESP-NOW无线通信

如何提高UI自动化的稳定性
1. 对于失败的用例，将失败的原因进行记录，判断失败的类型：用例不稳定、环境问题、产品问题等。6. 添加失败重试，可以过滤掉很多因网络不稳定或环境不稳定导致的用例失败。2. 对于一些可能会变化的参数，
阅读更多2024-09-25
LeetCode - 2207. 字符串中最多数目的子序列
那么我们应该如何在只遍历一遍的情况下得到原本字符串中的子序列个数（未插入情况下）呢？由于子序列长度只有2，所以要么首位插入队头，要么末位插入队尾，就能取得最大数目。的个数，两者取最大值，就是插入的字符
阅读更多2024-09-25
CaLM 因果推理评测体系：如何让大模型更贴近人类认知水平？
因果发现旨在从数据或语义中推测出潜在的因果结构，关联探索数据间的统计依赖关系，干预预测有意改变环境中的变量所带来的影响，以及反事实则对假设的替代场景进行推理。针对模型、提示词以及因果场景，CaLM 中
阅读更多2024-09-25
HOT100，二叉树题解
依赖子树结果：当前节点的答案依赖于左右子树的计算结果，在左右子树处理完成后才能得到完整的信息。减少重复计算：后序遍历确保每个节点只被计算一次，避免重复计算。全局状态更新的正确性：在处理完所有子树信息之
阅读更多2024-09-25
Vue 展示一个带有复选框的树形菜单，并通过按钮收集已选中的节点
这个代码使用 Vue.js 和 Element UI 的组件来展示一个带有复选框的树形菜单，并通过按钮收集已选中的节点。
阅读更多2024-09-25
【Temporal】方法规范
在workflow或者childWorkflow的方法代码中，不能使用golang的一些库方法，比如sleep，go协程等，必须使用其对应的封装方法，比如对应关系如下：time.Sleep -&
阅读更多2024-09-25
cmaklist流程控制——调试及发布
目前只会，并且不会workflow控制后续学习，理解整个流程，目前对流程控制理解也不够。
阅读更多2024-09-25
android 跑了一个网易云信v1.0的app, 编译的过程中报错Entry name ‘assets/sm2/r.jks‘ collided的处理
Entry name 'assets/sm2/r.jks' collided的处理
阅读更多2024-09-25
安装一个本地大模型
安装本地大模型之后，用如下方式启动 ollama run deepseek-v2:16b。
阅读更多2024-09-25
基于微信小程序的竞赛答题小程序开发笔记（一）
中小学学科答题小程序，适合各中小学校方，老师或者家长。通过互动和参与式学习，小程序能够通过游戏化元素提升学习的积极性和参与度，从而提升学习效率，促进学生自主学习。
阅读更多2024-09-25