浅谈人工智能之大模型的流式调用：Python版

🕗 发布于 2024-10-09 21:47 人工智能 python 开发语言

浅谈人工智能之大模型的流式调用：Python版

前言

在深度学习和自然语言处理领域，大模型的应用日益广泛，它们能够处理更复杂、更精细的任务，但同时也带来了计算资源和内存占用的挑战。为了有效利用资源并实时响应用户请求，流式调用成为了一种重要的技术手段。本文将分为两部分，分别介绍纯后端版本和前后端结合版本的流式调用实现方法。

纯后端版本：使用Python进行流式调用

在纯后端场景下，我们通常使用Python来开发服务端应用，直接处理大模型的流式调用。以下是一个基于千问大模型作为实例，展示如何使用OpenAI库进行流式文本生成。

# coding:utf-8
from openai import OpenAI
openai_api_base = "http://XX.XX.XX.XX:8889/v1"
openai_api_key = "none"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
response = client.chat.completions.create(
    model="QWen",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "请你发表你对自己的看法？"
            },
    ],
    stream=True,
    temperature=0,
)
for chunk in response:
    content = chunk.choices[0].delta.content
    if content:
        print(content, end='', flush=True)
print('\n')

前后端结合版本：使用Python和Web框架进行流式调用

在前后端结合的场景下，我们需要在前端显示实时生成的文本，并在后端使用Python处理流式调用。这里以Flask作为Web框架，展示如何构建一个简单的流式文本生成服务。

前端实现

前端可以使用JavaScript的Fetch API来消费这个流式服务。下面是一个简单的HTML页面，展示了如何动态显示生成的文本

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Stream Example</title>
</head>
<body>
    <pre id="output"></pre>

    <script>
        const output = document.getElementById('output');
        fetch('http://127.0.0.1:5000/stream', { method: 'GET' })
            .then(response => response.body)
            .then(stream => {
                const reader = stream.getReader();
                const decoder = new TextDecoder();

                async function readAndLog() {
                    const { value, done } = await reader.read();
                    if (done) {
                        console.log('Stream ended');
                        return;
                    }
                    const chunk = decoder.decode(value, { stream: true });
                    output.textContent += chunk;
                    await readAndLog();
                }

                readAndLog().catch(err => console.error('Failed to read stream: ', err));
            })
            .catch(error => console.error('Failed to fetch stream: ', error));
    </script>
</body>
</html>

后端实现

from flask import Flask, Response
from openai import OpenAI
from flask_cors import CORS

app = Flask(__name__)
CORS(app)

client = OpenAI(
    api_key="YOUR_OPENAI_API_KEY",
    base_url="http://XX.XX.XX.XX:8889/v1",
)

@app.route('/stream', methods=['GET'])
def chat():
    
    response = client.chat.completions.create(
        model="QWen",
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "请你自我介绍下？"},
        ],
        stream=True,
        temperature=0,
    )

    def generate():
        for chunk in response:
            content = chunk.choices[0].delta.content
            if content:
                yield content
    return Response(generate(), mimetype='text/plain')


if __name__ == '__main__':
    app.run(debug=True)

结论

流式调用是处理大模型实时任务的有效方式，无论是纯后端还是前后端结合的场景，都可以通过适当的技术实现。上述示例展示了如何使用Python和Flask构建一个基本的流式文本生成服务，并在前端动态显示生成的文本。这种方法可以应用于各种需要实时反馈的NLP任务，如聊天机器人、自动写作等。

原文地址：https://blog.csdn.net/u012151594/article/details/142755681

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数据库的相关知识
下一篇：linux dbus介绍，彻底懂linux bluez dbus

【Linux】 TCP短服务编写和守护进程
在计算机的网络编程中，任务是由一个进程组完成的，组长的PID就是这个进程组PGID的组ID。对此，我们推荐使用多线程或者线程池来提供服务，如果是服务器给客户端提供的是长服务，那么多线程和线程池区别不大
阅读更多2024-10-10
【C语言进阶教程】数据结构与算法（7.图 8.常见算法 9.项目实践）
在本节，通过对常用排序和搜索算法，以及递归与回溯方法的深入理解，您将能够有效地在实践中运用这些基本操作来处理复杂的数据结构问题。掌握这些算法是迈向更高编程技能的重要一步。接下来的内容将引导您进入项目实
阅读更多2024-10-10
二十六、常用API之《基本数据类型的包装类》
什么是包装类？基本数据类型的包装类有那些？什么是装箱？什么是拆箱？基本数据类型在内存中占用了多少字节？看这一篇就够了
阅读更多2024-10-10
【笔记】6.2 玻璃的成型
玻璃熔体的成型方法,有压制法(例如,制作水杯、烟灰缸等)、压延法(例如,制作压花玻璃等)、浇铸法(例如,制作光学玻璃、熔铸耐火材料、铸石等) 、吹制法(例如,制作瓶罐等空心玻璃)、拉制法(例如,制作窗
阅读更多2024-10-10
html 之 relative 和 absolute
结合 relative 和 absolute 的工作原理当一个父元素使用 relative 定位，并且其子元素或伪元素使用 absolute 定位时，子元素会根据父元素的边界进行定位，而不是根据视口或
阅读更多2024-10-10
thinkphp阿里云发送短信验证码,存储到缓存中完成手机号验证
您可以使用 Composer 来安装阿里云的 SDK。第一步安装阿里云 SDK。
阅读更多2024-10-10
详解机器学习经典模型(原理及应用)——条件随机场
本文详细介绍了条件随机场的概念、模型原理以及代码实现，可用于业务或面试参考。
阅读更多2024-10-10
Spark练习-统计不同性别的年龄总和,统计不同性别不同年龄的年龄平均值
虽然两种map不同,但是结果相同。
阅读更多2024-10-10
开源大模型推理GPU资源评估以及优化
随着大模型的火热很多项目中都使用到了开源大模型，这时候准确评估大模型的GPU资源非常重要，主要有下面几个方面：GPU是昂贵的资源。高估内存需求可能导致在硬件上的不必要支出，而低估则可能导致系统故障或性
阅读更多2024-10-10
【FastAdmin】全栈视角下的页面跳转实现：从原生html、javascrpt、php技术到jQuery、FastAdmin框架
页面跳转是Web开发中的基本操作，不同的技术栈提供了不同的实现方法。本文将详细介绍在原生JavaScript、原生HTML、原生PHP、jQuery以及FastAdmin框架中实现页面跳转的各种方法，
阅读更多2024-10-10

浅谈人工智能之大模型的流式调用：Python版