自学内容网 自学内容网

模型动态切换&边缘部署

模型动态切换

1️⃣ 研究条件

  相同的模型具有多个可用的变体(具有不同的精度和性能特征),以及多个硬件资源可供选择

2️⃣ 研究的问题

  客户端(用户,应用程序)给定"服务水平目标"(service level objectives,slo),服务系统应该如何自动选择模型变体和底层硬件

  首先,给定一个推理查询,服务系统如何放置/调度它?

  有三种选项,生成一个新的模型变体,加载一个现有的模型变体,或者查询一个已经加载的模型,选择取决于应用程序的需求,例如,推理是在线的还是离线的,slo是什么等。[1]和[2]建议研究如何将模型切换和硬件资源选择协同结合起来。此外,给定放置选择 1 {}^1 1,可能需要启动额外的硬件资源,或者清除已加载的模型来释放资源。正如[2]所指出的那样,在任何时候保持所有模型的温度都是非常昂贵的,且规模很小。模型管理操作增加了查询响应的延迟,影响系统满足slo的能力。

  下一个问题是如何获得决策查询放置所需的数据。除了一组可能的硬件资源和模型变体之外,服务系统还必须考虑系统的当前状态,这种状态是不断变化的。系统当前的状态包含几个方面,哪些模型变体加载到哪些硬件资源上,哪些模型变体存在但未加载,哪些模型变体不存在但能够生成,每个硬件实例的CPU/内存/磁盘/网络使用情况,以及推理查询流量。

  不仅需要考虑硬件和模型变体选择的逻辑方面,还必须考虑硬件资源的地理位置,考虑到资源可能位于任何位置。[1]要求研究应该在哪里加载模型,应该在哪里做出资源管理决策,以及应该在哪里做出查询放置决策。

  [2]进一步提出了将模型切换与查询缓存和批处理等性能优化技术相结合的研究。已经报道了几种用于ML服务系统的批处理技术。[3]使用了一种具有静态最大批处理大小和超时窗口的批处理技术,该技术在每个模型的基础上进行了调整,而[4]提出了一种专门针对神经网络的自适应批处理方案,减少了低流量场景下的延迟。将缓存和批处理与模型切换结合起来是一个需要进一步研究的开放性问题。

  [2]提出了将模型切换扩展到其他类型计算资源的研究。在现有的机器学习即服务(MLaaS)平台中,cpu是目前应用最广泛的推理工具。其他类型的硬件也适用于神经网络推理,如gpu、tpu等。应该对考虑到这些额外硬件资源类型的模型切换进行研究,以确定可能的性能优势。此外,在动态查询放置期间结合模型切换和硬件选择时,额外的硬件异构性可能会带来有趣的挑战。

1.“放置选择”是指关于应在何处部署或执行机器学习模型的决策过程。这涉及选择最合适的计算资源或硬件基础设施(例如服务器、边缘设备)以满足某些性能要求或服务级别目标 (SLO)


边缘部署

  在边缘架构中部署多个模型的上下文中,为了释放资源用于新部署,可能需要不时地移除一些模型。[5]和[6]提出边缘设备驱逐模型策略的研究。根据[5],监控边缘部署的机器学习模型可能会带来两种不同的挑战。
  首先,一些度量指标如概念漂移和模型漂移,需要连续访问原始训练集。但是,由于多种原因,边缘设备可能无法访问训练集,包括存储空间限制和数据隐私问题。
  其次,[6]确定了触发集中式模型再训练的问题。再训练触发器要求监控数据连续地从边缘设备流到(可能集中的)ML管道,这不仅会因为不可靠的网络连接、带宽限制或数据使用限制而变得困难,而且处理来自边缘设备的大量传入监控数据本身可能会带来可扩展性的挑战。

参考文献

[1] A Case for Managed and Model-less Inference Serving.
[2] Model-Switching: Dealing with Fluctuating Workloads in Machine-Learning-asa Service Systems
[3] Clipper: A Low-Latency Online Prediction Serving System
[4] Lazy Batching: An SLAaware Batching System for Cloud Machine Learning Inference
[5] Edge Intelligence: The Convergence of Humans, Things, and AI.
[6] Towards a Serverless Platform for Edge AI


原文地址:https://blog.csdn.net/qq_42980908/article/details/140224665

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!