自学内容网 自学内容网

星盘跨境依托云器 Lakehouse 实现实时离线一体化、湖仓一体化数据架构升级,支持全域数据高效分析

近几年跨境电商高速发展,“出海”正成为越来越多中国企业拓展渠道的选择。与此同时,产品同质化、品牌附加值低、流量成本增高等因素正推动中国跨境企业经历从中国制造向中国品牌的过渡。

为打造中国品牌形象,跨境企业着重在渠道和数字化两方面发力。在渠道方面,除与亚马逊、Wayfair 等第三方海外电商平台合作外,跨境企业纷纷建立独立站来构建私域流量池、培养品牌忠诚度。而在数字化方面,跨境企业也重视通过 AI 、大数据、云计算等一系列技术挖掘数据价值、提高经营效率。

但无论是渠道的搭建还是数字化手段,对于众多刚开启出海业务的企业或品牌来说,都是难以实现的目标,需要第三方服务商提供跨境服务和支持。

星盘跨境(以下简称“星盘”)就是这样一家为中国品牌提供跨境服务的公司

星盘业务扩张需求使数据架构面临多重挑战

在公司创立初始阶段,星盘的数据架构较为简单,以一条离线计算链路为主,支撑出海商户 T+1 运营分析场景。随着出海商户新需求涌现,星盘迅速扩增数据平台架构和产品布局,增加实时计算链路,来支撑跨境商户的营销广告投放盯盘、线上交易风控等实时业务场景;针对商户对竞品状态、爆款商品和热点事件的市场洞察需求,星盘又新增数据湖技术栈,以支持对图片、文字、视频、语音等非结构化数据的情报分析业务。

图1:星盘数据平台增加实时链路

图2:星盘增加数据湖架构

随着星盘业务布局趋于稳定,数据平台也形成由离线计算链路、实时计算链路和数据湖等多种技术栈“组装”成的较为稳定的架构形态。产品服务的快速升级、良好的用户体验以及丰富的商户生意套件推动星盘业务规模进入快速扩张阶段。

图3:星盘“组装式”数据平台面临的挑战

很快,业务的扩张引发“组装式”数据架构的不适应,给星盘带来诸多使用痛点,如:实时、离线“双链路”的割裂导致数据质量问题频发,多组件的维护会产生高昂运维成本等。而且,当星盘着眼于未来,从长远考量大规模数据体量和高标准技术要求时,“组装式”数据架构的短板和局限性非常明显,实时分析将会面临性能瓶颈、数据平台灵活性有限将难以支持企业全域数据的关联分析等。在这种情况下,数据架构面临的挑战具体表现为:

1)平台使用痛点

  • 数据口径不一致影响商家业务决策。实时、离线分离模式下,两条链路因集成更新频率不同、数据语义不统一,极易导致 BI 固定报表和实时看板的计算结果难以保持一致,也为商家业务决策带来困扰。
  • 数据存储和计算冗余带来存储、计算以及运维成本攀升。“双链路”下,数据不仅在离线、实时两条计算链路中冗余存储,带来资源上的浪费,也在两条链路中重复进行清洗、转换等数据治理任务,以及额外的链路间协同交错,导致计算冗余。此外,系统监控、性能优化、故障排除等运维工作量加倍也推升了运维开发成本。

2)平台局限性

  • 数据平台的灵活性和扩展性难以满足业务的快速变化和长期发展需求
    • 平台灵活性方面,在高速发展中,星盘各业务随时会产生诸如商品新增、数据实时性调整、指标计算逻辑调整等需求,这需要数据平台在新增数据源、调整数据处理逻辑或优化性能等方面具备较高的敏捷性。但在当前星盘组装式、多引擎的数据平台架构下,各项调整需要平衡多引擎间的数据新鲜度、性能和成本,导致系统修改和开发的复杂度过高,调整周期平均耗时 3 个月,难以适应星盘业务的快速变化。
    • 平台扩展性方面,营销广告盯盘的实时查询性能瓶颈显现,尤其对 TB 级以上数据体量进行在线交互分析时,明显带来“不稳定”的延迟性。未来随着商家数量扩增 10 倍乃至百倍,星盘将会迎来 PB 级数据体量的计算需求、与百倍并发量的实时请求,因此需要提升引擎的扩展性和弹性伸缩能力。
  • 数据湖、数据仓库割裂无法提供业务分析全局视角,不利于提升服务体验
    • 星盘希望为商家提供基于企业全域数据的联合分析,如在图片关键信息提取、广告素材图片内容分类以及拆分视频关键帧处理等场景下产生的海量非结构化数据,需要与商品、用户行为等结构化数据开展联合分析,深挖数据价值。但目前的数据架构无法对数据湖、数据仓库中数据进行统一管理,也难以联合结构化数据、非结构化数据进行全局分析,成为星盘进一步提升品牌商户服务体验的阻碍。

多方对比下,星盘与云器达成合作

星盘亟需更先进的数据平台架构解决方案,希望通过升级,有效解决既有平台使用痛点,同时也能适应业务长期的发展需求。基于此,星盘定义了升级后数据平台的三个特征目标:

1)数据平台架构简化,减少拼装组件,降低开发运维成本。

2)提升平台灵活性和扩展性,尤其提升实时计算性能。

3)打通企业数据湖和数据仓库,实现统一管理,使数据平台能同时支撑 BI 、 AI 负载。

图4:星盘选型考量因素

以上目标决定了星盘的选型标准,如在选择系统架构时,简单化且扩展性良好的系统要优先于多个组件组合的系统。在实现目标的路径上,星盘以实时类业务为优先尝试对象,待效果验证后再全面推广到其他业务,因此实时计算性能以及按量付费的 SaaS 化服务能力也是选型的重要依据。

星盘前后调研多家厂商,包括开源厂商、云大厂。其中,开源厂商虽然能达成架构升级目标,但多个组件拼装、组合的方式显然会带来高昂的运维成本;云大厂的单款产品不能覆盖以上全部的目标,需要采购多款产品,会带来较高的采购成本。

在对多家厂商方案的沟通对比中,星盘关注到在大数据创业圈中具备良好口碑的云器科技,对云器实时离线一体、湖仓一体的极简数据架构理念非常认同,结合云器 Lakehouse 在实时计算 POC 中优秀的性能表现,最终选择云器 Lakehouse 作为新数据平台引擎。

星盘数据架构升级,实现简化、灵活、扩展目标

星盘与云器的合作经历了“ 3 步走”的过程,合作内容逐渐深入。第一步,实时计算链路迁移到云器 Lakehouse 上并验证效果;第二步,离线计算链路迁移到云器 Lakehouse 上,实现实时离线一体化;第三步,将数据湖挂载到云器 Lakehouse 上,完成企业数据湖与数据仓库的融合,实现非结构化数据、结构化数据的统一管理和分析。经过三个阶段建设,星盘达成升级目标,完成实时离线一体化+湖仓一体化的数据架构升级。

1)简化数据架构、提升灵活性

基于云器 Lakehouse ,星盘建立了一体化的数仓分层体系,对离线数据和实时数据进行统一存储、开发、治理和分析,替换离线、实时“双链路”,使数据链路更简洁。

实时离线一体化能有效解决数据不一致、数据存储冗余、开发运维成本高等问题,也能灵活适应业务探索过程。如在数据开发中,相较“双链路”下两套开发体系,实时离线一体化支持运维人员使用通用 SQL 语法,配合 Python 、 Shell 等开发语言,即能实现在实时、离线场景下的敏捷数据开发。

图5:星盘实时离线一体化+湖仓一体化架构

2)平台实现高性能、高扩展性

在云器 Lakehouse SaaS 存算分离、弹性扩展服务模式下,星盘能对计算资源、存储资源分别进行弹性扩缩容。尤其在计算资源方面,星盘可针对不同计算任务采取不同的计算资源分配策略。如面向高吞吐量、大规模数据批处理场景下,可采取固定资源池策略,自主定义虚拟集群规格,为 ETL 调度任务提供专项计算资源;而在面向需要秒级查询响应的在线分析业务或是并发量较高的 BI 报表,可采用计算资源自动弹性伸缩策略,通过在系统中定义虚拟集群最小规格和弹性扩张倍数,保障高峰期秒级拉起虚拟集群、低谷期秒级销毁多余资源,节约计算资源。

图6:星盘计算资源支持弹性扩缩容

3)以一个平台兼容 BI、AI 工作负载,释放全域数据价值

在数据管理和分析方面,星盘在云器 Lakehouse 数据平台上实现企业“湖”和“仓”的元数据的统一管理和全域数据的统一开发、治理和分析,以一份数据、一个平台同时支持BI、AI等多种负载,获取多模数据全局分析视角。如跨境商户在商品品类统计分析场景,用户将数据湖中的图片以对象存储的路径进行 location 定义,在数据平台界面通过 UDF 直接调用 AI 模型接口,完成商品图片品类识别,并将输出的结构化数据存储在数仓中,以供后续与订单表、商品维度表等数据进行关联统计分析。

图7:星盘通过 Remote UDF 在云器 Lakehouse 中调用 AI 算法

4)实现嵌入式实时 BI

通过云器 Lakehouse 的 Serving 能力,星盘实现了数据平台嵌入式 BI 升级,BI 系统可通过 JDBC 直接访问 Lakehouse 计算引擎。极短的数据链路和资源弹性伸缩能力在满足出海商家高并发访问的同时,也能保障查询请求的低延时响应,将响应时间控制在 200 毫秒内。

图8:云器 Lakehouse 弹性伸缩能力支持嵌入式BI高并发请求


云器 Lakehouse 重塑星盘技术能力支撑业务长远规划

在使用云器 Lakehouse 引擎后,星盘总体IT成本得到有效控制,同时数据能力全面提升,能有效支撑并赋能未来业务高速发展。

图9:星盘使用云器 Lakehouse SaaS 产品后技术能力全面提升

  • 有效降低 IT 成本。包括减少数据冗余存储成本、开发运维成本以及 Serving 组件采购成本。
  • BI 固定报表数据新鲜度提升。原 BI 报表升级为实时 BI 报表,分析效率从原来的每 4 小时/次,提升到了实时看板的分钟级数据更新、毫秒级在线查询,为商家决策提供高效数据支持。
  • 实时盯盘系统性能高效稳定。实时盯盘系统能容纳千级甚至万级商户海量数据存储,提供 200 ms 内的稳定的查询反馈。
  • 全域数据分析提升商家决策效率。如行业大数据板块能全面采集商家商品页面的评论、公众号的回复、博客的浏览量以及商品的销售额等数据,通过语义分析情感分析模型对商品进行综合舆情反馈,帮助商家及时感知市场,快速进行商品的汰换升级。

图10:星盘商家运营看板全面升级

图11:星盘行业大数据情报系统

极简数据架构将成为承载创业公司发展的主流架构

星盘作为出海跨境服务的初创企业,在近两年的业务发展中,以自身数据平台架构的升级为缩影,见证了跨境出海品牌对数据服务的强烈需求和跨境服务企业的巨大发展机遇。

图12:星盘数据架构发展历程示意图

星盘的数据架构随着业务的发展历经了从简单到复杂,再从复杂回归简单两个阶段。第一个阶段,面向业务从 0-1 搭建实时看板、行业大数据板块需求,数据平台在离线计算链路上新增实时计算、数据湖技术栈。第二阶段,业务规模高速扩张下,复杂的数据架构不能敏捷满足业务需求,数据平台通过实时离线一体化、湖仓一体化简化升级提升效能。

结合自身数据平台变化经历以及对未来技术趋势的观察,星盘相信,随着实时离线一体、湖仓一体技术的成熟,极简数据平台架构将逐步取代多种技术栈堆砌、组装的复杂架构。对于业务发展势头良好的跨境服务友商乃至众多创业公司而言,在数据架构规划上一步到位,采用实时离线一体、湖仓一体的架构来承载业务的高速发展,是更具性价比的方式。

与云器的合作非常愉快,依托于云器 Lakehouse 先进的数据架构,星盘将在跨境服务领域走得更远更快,为千万个出海品牌全球化提供优质高效的出海服务,成为助推中国品牌国际化的坚实力量。


原文地址:https://blog.csdn.net/hf200012/article/details/143955850

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!