模型动态切换&边缘部署

🕗 发布于 2024-07-10 02:18 算法 6G

模型动态切换

1️⃣ 研究条件

相同的模型具有多个可用的变体(具有不同的精度和性能特征)，以及多个硬件资源可供选择

2️⃣ 研究的问题

客户端(用户，应用程序)给定"服务水平目标"(service level objectives，slo)，服务系统应该如何自动选择模型变体和底层硬件

首先，给定一个推理查询，服务系统如何放置/调度它？

有三种选项，生成一个新的模型变体，加载一个现有的模型变体，或者查询一个已经加载的模型，选择取决于应用程序的需求，例如，推理是在线的还是离线的，slo是什么等。[1]和[2]建议研究如何将模型切换和硬件资源选择协同结合起来。此外，给定放置选择 ${}^1$ ，可能需要启动额外的硬件资源，或者清除已加载的模型来释放资源。正如[2]所指出的那样，在任何时候保持所有模型的温度都是非常昂贵的，且规模很小。模型管理操作增加了查询响应的延迟，影响系统满足slo的能力。

下一个问题是如何获得决策查询放置所需的数据。除了一组可能的硬件资源和模型变体之外，服务系统还必须考虑系统的当前状态，这种状态是不断变化的。系统当前的状态包含几个方面，哪些模型变体加载到哪些硬件资源上，哪些模型变体存在但未加载，哪些模型变体不存在但能够生成，每个硬件实例的CPU/内存/磁盘/网络使用情况，以及推理查询流量。

不仅需要考虑硬件和模型变体选择的逻辑方面，还必须考虑硬件资源的地理位置，考虑到资源可能位于任何位置。[1]要求研究应该在哪里加载模型，应该在哪里做出资源管理决策，以及应该在哪里做出查询放置决策。

[2]进一步提出了将模型切换与查询缓存和批处理等性能优化技术相结合的研究。已经报道了几种用于ML服务系统的批处理技术。[3]使用了一种具有静态最大批处理大小和超时窗口的批处理技术，该技术在每个模型的基础上进行了调整，而[4]提出了一种专门针对神经网络的自适应批处理方案，减少了低流量场景下的延迟。将缓存和批处理与模型切换结合起来是一个需要进一步研究的开放性问题。

[2]提出了将模型切换扩展到其他类型计算资源的研究。在现有的机器学习即服务(MLaaS)平台中，cpu是目前应用最广泛的推理工具。其他类型的硬件也适用于神经网络推理，如gpu、tpu等。应该对考虑到这些额外硬件资源类型的模型切换进行研究，以确定可能的性能优势。此外，在动态查询放置期间结合模型切换和硬件选择时，额外的硬件异构性可能会带来有趣的挑战。

1.“放置选择”是指关于应在何处部署或执行机器学习模型的决策过程。这涉及选择最合适的计算资源或硬件基础设施（例如服务器、边缘设备）以满足某些性能要求或服务级别目标 (SLO)

边缘部署

在边缘架构中部署多个模型的上下文中，为了释放资源用于新部署，可能需要不时地移除一些模型。[5]和[6]提出边缘设备驱逐模型策略的研究。根据[5]，监控边缘部署的机器学习模型可能会带来两种不同的挑战。
首先，一些度量指标如概念漂移和模型漂移，需要连续访问原始训练集。但是，由于多种原因，边缘设备可能无法访问训练集，包括存储空间限制和数据隐私问题。
其次，[6]确定了触发集中式模型再训练的问题。再训练触发器要求监控数据连续地从边缘设备流到(可能集中的)ML管道，这不仅会因为不可靠的网络连接、带宽限制或数据使用限制而变得困难，而且处理来自边缘设备的大量传入监控数据本身可能会带来可扩展性的挑战。

参考文献

[1] A Case for Managed and Model-less Inference Serving.
[2] Model-Switching: Dealing with Fluctuating Workloads in Machine-Learning-asa Service Systems
[3] Clipper: A Low-Latency Online Prediction Serving System
[4] Lazy Batching: An SLAaware Batching System for Cloud Machine Learning Inference
[5] Edge Intelligence: The Convergence of Humans, Things, and AI.
[6] Towards a Serverless Platform for Edge AI

原文地址：https://blog.csdn.net/qq_42980908/article/details/140224665

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用void 0替代undefined
下一篇：PCL 点云最小外接球形包围盒

一次性入门三款分布式定时任务调度框架：Quartz、ElasticJob3.0、xxl-job
三款分布式任务调度框架，一篇文章全部入门
阅读更多2024-10-19
Python OpenCV精讲系列 - 目标检测与识别深入理解（二十）
Haar特征是一种简单的图像特征，用于检测局部图像结构的变化。它由一组简单的黑色和白色矩形组成，用于计算图像中不同区域之间的平均像素强度差异。HOG（Histogram of Oriented Gra
阅读更多2024-10-19
OpenMediaVault安装插件以及重置web控制台密码
需要安装好openmediavault-md插件。
阅读更多2024-10-19
快速了解kubernetes中的存储管理
Secret 对象类型用来保存敏感信息，例如密码、OAuth 令牌和 ssh key。- 敏感信息放在 secret 中比放在 Pod 的定义或者容器镜像中来说更加安全和灵活- Pod 可以用两种方式
阅读更多2024-10-19
代理 IP：促进在线教育资源普及与公平的新助力
当某个地区的网络拥堵时，学生可以通过代理 IP 选择其他网络较为畅通的线路，确保学习的顺畅进行。对于一些教育资源匮乏的地区，代理 IP 可以帮助学生访问其他地区的在线教育平台，获取更多的学习资料、课程
阅读更多2024-10-19
代码训练营 day38|LeetCode 62，LeetCode 63
今天主要学习了dp的一系列操作，今天难度不大，有点dp那味儿了加油，坚持打卡的第38天。
阅读更多2024-10-19
Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis 阅读
Dynamic 3D Gaussians:Tracking by Persistent Dynamic View Synthesis 论文阅读
阅读更多2024-10-19
JS模块化及import、export
本文探讨了模块化编程的背景与目的，强调了通过降低代码重复、提高可读性和便于维护等优势来改善软件开发过程。文章还介绍了五大模块化原则，包括单一职责原则和依赖倒置原则，以确保代码的灵活性和可扩展性。此外，
阅读更多2024-10-19
css 如何根据子元素给他的父元素设置样式
'active' : 'unactive' }">子元素啊根据一个变量来加样式</div>其中能马上想到的就是：这个class的判断可以加在parent后面，但是如果不改变
阅读更多2024-10-19
前端学习---(2)CSS基础
关于文字样式的属性，都具有继承性。这些属性包括：color、 text-开头的、line-开头的、font-开头的。CSS 是用来指定文档如何展示给用户的一门语言——如网页的样式、布局、等等。css语
阅读更多2024-10-19

模型动态切换&边缘部署