Transformer加速工具包：探索 vLLM、DeepSpeed 和 CTranslate2【通俗易懂，附代码】

🕗 发布于 2024-07-18 19:28 transformer 深度学习 人工智能 语言模型

加速 Transformer 模型：探索 vLLM、DeepSpeed 和 CTranslate2

在我最近的学习中，简单了解了几种用于加速 Transformer 模型的工具包，包括 vLLM、DeepSpeed 和 CTranslate2。每个工具包都有其独特的优势和适用场景，做个笔记，记录一些心得和简单的使用方法（包括了NLP和CV方面的transformer）。

vLLM：高效的推理引擎

vLLM 是一个专为大规模语言模型优化的高效推理引擎。它通过优化内存管理和计算图，大幅提高了模型的推理速度。我发现 vLLM 在处理大型语言模型时非常出色。

使用 vLLM 的步骤：

安装 vLLM：
```
pip install vllm
```

加载和运行模型：

from vllm import LLModel

model = LLModel(model_name="gpt-3.5-turbo")
output = model.generate("Translate English to French: 'Hello, world!'")
print(output)

通过 vLLM，能显著减少推理时间，尤其是在处理大规模文本数据时。

DeepSpeed：全面的训练和推理优化

DeepSpeed 是微软开发的深度学习优化库，支持大规模模型的训练和推理。它提供了如 ZeRO 优化器等多种工具，大幅降低了显存占用，同时提高了计算效率。

使用 DeepSpeed 加速 ViT 模型：

安装 DeepSpeed：
```
pip install deepspeed
```

定义 ViT 模型：

from transformers import ViTForImageClassification, ViTFeatureExtractor
from datasets import load_dataset

model = ViTForImageClassification.from_pretrained("google/vit-base-patch16-224")
feature_extractor = ViTFeatureExtractor.from_pretrained("google/vit-base-patch16-224")
dataset = load_dataset("cifar10")

def preprocess_function(examples):
    return feature_extractor(images=examples["img"], return_tensors="pt")

encoded_dataset = dataset.map(preprocess_function, batched=True)

配置 DeepSpeed：
创建 ds_config.json 文件：

{
    "train_batch_size": 8,
    "optimizer": {
        "type": "Adam",
        "params": {
            "lr": 0.00015,
            "betas": [0.9, 0.999],
            "eps": 1e-8
        }
    },
    "zero_optimization": {
        "stage": 1
    }
}

训练模型：

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=8,
    num_train_epochs=3,
    deepspeed="ds_config.json"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset["test"]
)

trainer.train()

使用 DeepSpeed 后，可以高效地训练 ViT 模型，并且显存占用大幅减少，极大提升了训练效率。

CTranslate2：高效的推理优化

CTranslate2 是一个高效的推理引擎，专为 Transformer 模型优化，特别适用于机器翻译和其他自然语言处理任务。虽然 CTranslate2 主要用于 NLP，但它的优化策略同样值得在其他领域参考。

使用 CTranslate2 进行推理：

安装 CTranslate2：
```
pip install ctranslate2
```

加载和运行模型：

import ctranslate2

translator = ctranslate2.Translator("path/to/ctranslate2/model")
output = translator.translate_batch([["Hello, world!"]])
print(output)

CTranslate2 通过自定义内核和内存优化，实现了非常高效的推理。在处理实时翻译任务时，CTranslate2 表现得尤为出色。

版权声明
本博客内容仅供学习交流，转载请注明出处。

原文地址：https://blog.csdn.net/xiaoh_7/article/details/140448367

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Linux 下 ElasticSearch 集群部署
下一篇：网络爬虫基础介绍

leetcode刷题day25|回溯算法Part04（491.递增子序列、46.全排列、47.全排列 II）
全排列树层树枝的去重有点难理解
阅读更多2024-09-22
【60天备战2024年11月软考高级系统架构设计师——第23天：系统架构设计原则——模块化设计】
模块化设计是一种将系统划分为若干独立模块的设计方式，每个模块都具备相对独立的功能，可以单独开发、测试和维护。模块化设计的核心思想是通过模块的划分，减少系统的复杂度，提升系统的可扩展性和可维护性。
阅读更多2024-09-22
职业技能大赛-自动化测试笔记分享-2
Web自动化测试是使用软件工具自动执行对Web应用程序的测试，以提高效率和准确性。它通常涉及编写测试脚本，模拟用户交互，并验证应用程序的功能、性能和安全性。常用的工具包括 Selenium、Cypre
阅读更多2024-09-22
TCP/IP协议详解：现代网络通信的基石
在本文中，我们将深入探讨TCP/IP协议的工作原理、其四层模型的结构，以及它如何实现可靠的数据传输。
阅读更多2024-09-22
Qt/C++开发经验
Qt在开发阶段不支持中文目录（运行阶段可以，比如打包发布的程序放到中文目录运行是ok的），切记，这是无数人可能犯的错误，在安装Qt集成开发环境以及编译器的时候，务必记得目录必须英文，Qt项目源码也必须
阅读更多2024-09-22
C++ | Leetcode C++题解之第414题第三大的数
C++ | Leetcode C++题解之第414题第三大的数
阅读更多2024-09-22
在 Debian 12 上安装 Java 21
在 Debian 12 上安装 Java 21 可以通过以下两种主要方法：使用 Oracle JDK 21下载 deb 包：从 Oracle 官方网站下载适用于 Linux 的 Java 21 的 d
阅读更多2024-09-22
【前端】prop传值的用法
props是只读的，如果需要修改可以复制props中的内容到data中一份，然后去修改data中的数据。因为vue底层会检测对props的修改，如果进行了修改，就会发出警告。prop配置项的作用是让组
阅读更多2024-09-22
微信支付开发-后台统计工厂实现
微信支付开发-后台统计工厂实现-thinkphp6+MySQL5.7
阅读更多2024-09-22
攻防世界----＞Windows_Reverse1（补）
decode 取值等于 byte_ [xxx] 是否说明了byte_ 是一张解密表？总结：最好自己分析，不要纠结表的数据，为什么不一样。以自己的hex数据为准。假设，我们不知道地址随机怎么办？不能动调
阅读更多2024-09-22

Transformer加速工具包：探索 vLLM、DeepSpeed 和 CTranslate2【通俗易懂，附代码】

加速 Transformer 模型：探索 vLLM、DeepSpeed 和 CTranslate2

vLLM：高效的推理引擎

DeepSpeed：全面的训练和推理优化

CTranslate2：高效的推理优化

相关文章