实战精选 | 如何用 OpenVINO™ 在本地快速部署 Llama 3.2

🕗 发布于 2024-09-30 07:00 openvino llama 人工智能

点击蓝字

关注我们,让开发变得更有趣

作者 | 武卓英特尔 AI 软件布道师

排版 | 吴紫琴

OpenVINO™

随着 Llama 3.2 的刚刚发布，最新的AI模型进展比以往更加易于获取。借助 OpenVINO™ 和 Optimum Intel 的无缝集成，你可以在本地 Intel 硬件上压缩、优化并运行这个强大的模型。在本指南中，我们将带你完成整个流程，从环境搭建到最终执行，帮助你以最少的努力充分发挥 Llama 3.2 的潜力。

OpenVINO™

在 AI PC 的集成 GPU 上运行 Llama 3.2

目

录

下载 OpenVINO™ GenAI 示例代码

安装最新版本及依赖项

使用 NNCF 下载并导出 Llama 3.2

运行模型

总结

第0步：为开发准备你的机器！

对于第一次使用的用户，建议你按照Wiki中的基本设置步骤（1、2和3）进行。

机器设置并准备就绪 =)

第1步：下载 OpenVINO™ GenAI 示例代码

使用 OpenVINO™ GenAI API 在 Windows 上运行 Llama 3.1 的最简单方法是使用提供的示例代码进行设置。

首先，克隆仓库：

git clone https://github.com/openvinotoolkit/openvino.genai.git

在仓库中，你会找到一个名为 chat_sample 的 Python 示例。这个简洁的示例可以让你用不到40行代码执行 Llama 3.2，并与用户进行对话。它是开始探索模型功能的简便途径。

OpenVINO™ GenAI 的 Python 示例中的聊天示例

下面是示例代码的预览：

#!/usr/bin/env python3
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0


import argparse
import openvino_genai
def streamer(subword):
    print(subword, end='', flush=True)
    # Return flag corresponds whether generation should be stopped.
    # False means continue generation.
    return False




def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('model_dir')
    args = parser.parse_args()


    device = 'CPU'  # GPU can be used as well
    pipe = openvino_genai.LLMPipeline(args.model_dir, device)


    config = openvino_genai.GenerationConfig()
    config.max_new_tokens = 100


    pipe.start_chat()
    while True:
        prompt = input('question:\n')
        if 'Stop!' == prompt:
            break
        pipe.generate(prompt, config, streamer)


        print('\n----------')
    pipe.finish_chat()




if '__main__' == __name__:
    main()

接下来，让我们设置环境以处理模型的下载、转换和执行。

第2步：安装最新版本和依赖项

为了避免依赖冲突，建议创建一个单独的虚拟环境：

python -m venv openvino_venv

激活环境,

openvino_venv\Script\activate

现在，安装必要的依赖项：

python -m pip install --upgrade pip
pip install -U --pre openvino-genai openvino openvino-tokenizers[transformers] --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly 
pip install --extra-index-url https://download.pytorch.org/whl/cpu "git+https://github.com/huggingface/optimum-intel.git" "git+https://github.com/openvinotoolkit/nncf.git" "onnx<=1.16.1"

第3步：使用 NNCF 下载并导出 Llama 3.2

在从Hugging Face 导出模型之前，确保你已在此处接受使用协议。

然后，使用以下命令下载并导出模型：

optimum-cli export openvino --model meta-llama/Meta-Llama-3.2-3B-Instruct --task text-generation-with-past --weight-format int4 --group-size 64 --ratio 1.0 --sym --awq --scale-estimation --dataset “wikitext2” --all-layers llama-3.2-3b-instruct-INT4

注：对于从 HuggingFace 网站上下载 Llama-3.2 模型的开发者，如果使用 Windows 系统，可以在 powershell 窗口中首先进行如下设置，再使用上述命令进行模型的下载、转换及压缩：

pip install -U huggingface_hub
set HF_ENDPOINT=https://hf-mirror.com

如果是 Linux 系统，在终端窗口中使用如下命令首先进行设置：

pip install -U huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com

也可以直接在魔搭社区

https://www.modelscope.cn/models/LLM-Research/Llama-3.2-3B-Instruct

进行模型下载。

下载完成后，在上述模型转换压缩命令中将模型名替换为下载后的模型保存的路径，即将命令修改如下：

optimum-cli export openvino --model <your_model_path>/Llama-3.2-3B-Instruct --task text-generation-with-past --weight-format int4 --group-size 64 --ratio 1.0 --sym --awq --scale-estimation --dataset “wikitext2” --all-layers llama-3.2-3b-instruct-INT4

第四步：运行模型

你现在可以使用 OpenVINO™ 运行模型推理。运行以下命令：

python chat_sample.py ./llama-3.2-8b-instruct-INT4

默认情况下，示例在 CPU 上运行。要切换到 GPU，只需在 chat_sample.py 中更新 device 参数：

pipe = ov_genai.LLMPipeline(model_path, "GPU")

最后，在我的AI PC集成显卡以及英特尔ARC A770独立显卡上运行推理的情况！

结论

使用 OpenVINO™ 在本地运行 Llama 3.2 为开发人员提供了一种强大且高效的解决方案，能够最大限度地提升 Intel 硬件上的 AI 性能。通过这种设置，你可以享受更快的推理时间、更低的延迟和更少的资源消耗——所有这些只需最少的设置和编码工作。希望本指南能帮助你快速有效地开始。祝编码愉快！

Notices & Disclaimers

Performance varies by use, configuration, and other factors. Learn more on the Performance Index site.

（https://edc.intel.com/content/www/us/en/products/performance/benchmarks/overview/）.

Performance results are based on testing as of dates shown in configurations and may not reflect all publicly available updates. See backup for configuration details. No product or component can be absolutely secure. Your costs and results may vary. Intel technologies may require enabled hardware, software or service activation.

OpenVINO™

---------------------------------------

*OpenVINO and the OpenVINO logo are trademarks of Intel Corporation or its subsidiaries.

-----------------------------

OpenVINO 中文社区

微信号 : openvinodev

B站：OpenVINO中文社区

“开放、开源、共创”

致力于通过定期举办线上与线下的沙龙、动手实践及开发者交流大会等活动，促进人工智能开发者之间的交流学习。

○ 点击 “ 在看 ”，让更多人看见

原文地址：https://blog.csdn.net/OpenVINOCC/article/details/142628247

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：websocket初识
下一篇：【Android 源码分析】Activity短暂的一生 -- 目录篇（持续更新）

Excel中查找某个值的位置，用位置取值
有 2022 年 1 月的日销售额统计表如下所示：找出销售额最大的是哪一天，在 C2 单元格里输入：=spl("=E(?返回结果 12接着找出销售额最大的那天的前 5 天和后 5 天的销售额
阅读更多2024-09-30
new一个对象背后发生了什么？
Java在new一个对象的时候，会先查看对象所属的类有没有被加载到内存，如果没有的话，就会先通过类的全限定名来加载。加载并初始化类完成后，再进行对象的创建工作。先假设是第一次使用该类，这样的话new一
阅读更多2024-09-30
JavaScript中的自增操作符：深入解析js中的（“++”）
a++
阅读更多2024-09-30
【计算机网络】详解HTTP请求和响应格式&常见请求方法&Header报头&响应报文状态码&URL
【计算机网络】详解HTTP请求和响应格式&常见请求方法&Header报头&响应报文状态码&URL
阅读更多2024-09-30
JVM内存分布与作用
先放一张内存区域的图，方便后面介绍的时候可以对照着看。「须知」当前JDK版本为JDK8。Java内存区域图。
阅读更多2024-09-30
第四章 Redis常用五大数据类型之List
Redis列表是简单的字符串列表，按照插入顺序排序，列表值可以重复。可以添加一个元素到列表的头部（左边）或者尾部（右边）。它的底层实际是双向链表，对两端的操作性能很高，通过索引下标操作中间的节点性能会
阅读更多2024-09-30
Visual Studio下载安装
1、下载地址。
阅读更多2024-09-30
docker-compose安装gitlab
cicd系列 gitlab
阅读更多2024-09-30
Gitlab服务搭建相关
【代码】Gitlab服务搭建相关。
阅读更多2024-09-30
基于JAVA springboot+mybatis智慧生活分享平台设计和实现
作者主页🍅📝🍅文末获取源码联系方式📝🍅查看下方微信号获取联系方式承接各种定制系统📝🚀🚀🚀精彩系列推荐👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟。
阅读更多2024-09-30

实战精选 | 如何用 OpenVINO™ 在本地快速部署 Llama 3.2

相关文章