从ETL到DataOps:WhaleStudio替代Informatica,实现信创化升级
作者 | 白鲸开源 姜维
在数据集成和调度的领域,Informatica
曾经是公认的权威工具。其强大的ETL
功能、多年积累的市场经验,使其成为众多企业数据处理的核心工具。
然而,随着新一代大数据平台的迅速崛起,以及信创化改造的要求愈发严格,Informatica在现今复杂多变的生产环境中逐渐显现出不足之处。
相比之下,白鲸开源的WhaleStudio
凭借其灵活、开源的架构设计、云数据源和信创数据源的适配,已逐渐成为替代Informatica
有力的解决方案。
Informatica在现代数据开发环境下的缺点
随着新一代大数据平台开发方法的兴起以及国内信创化改造要求,Informatica已经无法完全满足实际生产环境需要:
1. 无法适配新兴大数据环境的灵活性
Informatica的技术架构无法满足如Hadoop、星环、Spark、Flink、Doris、Hudi、Iceberg等新兴大数据平台的需求。其处理方式难以跟上这些新技术的演进速度和复杂性。而WhaleStudio在这方面表现优异,能够与主流大数据平台无缝集成。其DataOps能力确保了批处理与流处理的统一,支持用户快速、灵活地进行大规模数据的处理和分析,满足现代企业对实时和高效数据处理的需求。
2. 无法支持国产信创数据库及操作系统
随着信创化的深入,企业逐渐转向使用国产数据库和操作系统,如GaussDB、华为MRS、TiDB、达梦、人大金仓,以及统信和麒麟操作系统。Informatica在这方面的支持有限,无法完全适应国内市场的需求,特别是在信创合规性要求下,已经明确无法满足合规要求。
而WhaleStudio在作为中国原创的全球开源原生企业,其商业版本在原创的Apache DolphinScheduler和Apache SeaTunnel基础上,直接加入了提供了对这些国产系统的全面支持,并完成相关信创认证。
尤其在多云和信创环境下的部署能力及性能,更是远超同类国内外产品,使得用户能够根据业务需求灵活选择最佳技术方案,实现真正的信创化合规。
3.服务的持续性和服务保障
随着Informatica退出中国市场,客户在续签合同和获取技术支持方面遇到了严重挑战,这直接威胁到企业数据项目的稳定性和安全性。
WhaleStudio不仅作为国产开源项目(Apache DolphinScheduler+Apache SeaTunnel),拥有本地化的技术支持团队,还拥有超过6000+用户,5W个人用户的社区。用户可以依赖这一支持网络获得快速的技术响应和持续服务保障,避免了因服务中断而带来的风险。
4.从ETL到DataOps的全面升级
Informatica固有的ETL架构在处理超大规模和实时数据时面临挑战,难以满足当前对数据湖和实时数据仓库的需求。而WhaleStudio的DataOps架构超越了传统的ETL模式,采用EtLT(Extract, transform, Load, and Transform)架构,不仅能实现批流一体化,还能支持动态和复杂的数据流转。
DataOps旨在通过自动化和标准化的流程实现更快速、更高效的数据交付。WhaleStudio通过提供多种任务类型的代码管理,打通Git CICD流程,完善的Code Review与上线下管理机制,实现了对复杂数据环境的高效管理。企业能够在WhaleStudio上进行从数据提取到实时处理、批量开发、代码管理、上下线管理的一站式操作,使其比Informatica更加灵活和高效,更适应现代数据开发的管理需求。
DataOps作为一种数据运营和管理实践,强调了数据团队的敏捷性和协作性。WhaleStudio集成了DataOps理念,将开发、运维和数据管理整合在一起,提供从开发到生产的无缝衔接。相较于Informatica的传统操作,WhaleStudio的DataOps解决方案能帮助企业实现更快的数据交付周期、更高的自动化程度以及更低的错误率。
通过DataOps,WhaleStudio实现了数据工作流的持续优化和快速迭代。企业在使用WhaleStudio时,不仅能有效管理和监控数据流,还能根据需求进行快速调整,保持数据系统的高效运作。
WhaleStudio的DataOps能力通过支持CICD、持续交付和实时监控,提供更高的透明度和灵活性。数据管道的构建、测试和部署被高度自动化,减少了人为错误和延误,确保了系统的稳定运行。
Informatica迁移至WhaleStudio的架构升级
WhaleStudio 可以全面替换 Informatica,让用户一站式升级至支持数据湖/大数据/数据仓库/实时数据仓库/信创数据库,支持用户快速升级至全球领先的DataOps平台。
从以上的架构图可以看到WhaleStudio可以全面替换Informatica的功能:
01 数据源接入和处理层
在Informatica架构中,SAP、Oracle、MySQL等数据源通过Maplet被处理并导入ODS层。
Informatica通过复杂的映射和存储过程来实现数据的抽取、转换和加载,这个处理流程在面对现代化数据架构时,显得僵化和繁琐。
相比之下,WhaleStudio通过WhaleTunnel模块直接连接到SAP、Oracle、MySQL等数据源,提供了统一的数据接入能力。这种设计不仅简化了数据接入过程,还提供了对实时和批处理的双重支持,帮助企业轻松集成大数据和数据湖环境。
02 数据流转和任务处理
Informatica需要通过存储过程和其他工具将数据从ODS层传输到DWD层和DWA层。这个过程不仅依赖于特定的数据库技术,还会增加维护和优化的复杂性。
在WhaleStudio中,数据从ODS层到DWD层再到DWA层的传输全部通过标准化的SQL操作实现,进一步在MID(中间层)加入数据处理和优化环节。WhaleStudio的这种模块化架构,结合其DataOps平台,能够实现数据在不同层之间的自动流转和优化,大幅提升了系统的灵活性和性能。
03 数据湖和实时数据支持
Informatica在设计上较难实现对实时数据仓库和现代化数据湖的支持。而WhaleStudio通过其全栈架构和实时流处理功能,轻松实现了批流一体化的数据处理。
企业可以借助WhaleStudio在传统数据仓库、实时数据仓库和大数据平台之间实现无缝的衔接和数据共享。
04 信创化环境和多样化支持
前面图中显示的WhaleStudio不仅能够支持传统的数据仓库架构,还可以与国内的信创数据库和系统(如GaussDB、统信、麒麟)无缝集成。
通过SQL化和可视化任务调度,用户在部署和维护上具有更高的灵活性和便捷性。结合其DataOps功能,企业可以实现从数据抽取到处理和治理的自动化和标准化操作,使其一站式升级到全球领先的数据管理平台。
通过上面几点,我们可以清晰地看到WhaleStudio在架构设计上是如何实现对Informatica的替代。WhaleStudio以简化的数据接入、SQL化操作、批流一体化、可视化任务调度和自动化的DataOps能力,让用户可以快速升级至支持现代数据需求的全球领先平台。
不仅解决了Informatica架构中存在的复杂性和局限,还为企业提供了灵活、高效的开发和数据管理方式。
Informatica一站式迁移到WhaleStudio
WhaleStudio 支持直接利用WhaleScheduler图形化调用Informatica Workflow,实现分阶段分批迁移,同时具备多种迁移方式,满足不同场景下的迁移需求。
这些方法包括Infa-WhaleStudio迁移工具、Excel导入、人工批量生成、混合调度和人工迁移。
每种方法都有其优缺点,下面详细说明:
- 白鲸开源Infa-WhaleStudio迁移工具
优点:这种方法实现了全自动迁移,能够自动生成对应的Mapping,经过人工确认后即可直接导入WhaleStudio。这使得迁移过程更高效,减少了人工干预的需求,尤其适合大规模迁移任务。
- Excel导入
优点:Excel导入方式逻辑简单,开发者可以轻松地通过Excel模板来调整和修改数据,适合处理批量修改的迁移任务。Excel在迁移工作中提供了灵活的人工干预能力,使开发者能够更细致地对转换逻辑进行校验和优化。
- 人工批量生成表同步
优点:操作简便,一次性可以直接利用WhaleStudio多个表的数据同步任务。适合那些结构较简单且无需复杂逻辑处理的任务。开发人员可以快速生成多个数据任务,提高开发速度和灵活性。
- 人工迁移
优点:适用于复杂任务的迁移,能够将原有的Mapping转换为SQL任务,确保在迁移完成后系统不再依赖任何其他平台。这种方式赋予开发者对每个任务的完全控制,特别适合特殊需求或业务逻辑复杂的任务。
而在迁移过当中,WhaleStudio支持“WhaleStudio+Informatica 混合调度模式”,使企业能够实现分阶段、分批次的平稳迁移。
通过直接图形化调用Informatica Workflow,WhaleStudio允许用户在新平台上逐步导入和运行部分Informatica任务,同时保持现有系统的正常运作。
在此双系统并存的过渡阶段,开发人员可以对迁移任务进行调试和优化,减少因系统切换而产生的风险。该模式提供了更高的灵活性和安全性,确保迁移过程顺畅无缝。
WhaleStudio通过多种迁移方式,使得企业能够根据实际情况选择最佳的迁移策略。无论是全自动的Infa-WhaleStudio迁移工具,还是灵活的Excel导入和人工批量生成方法,开发者都可以根据具体项目的复杂度和需求,制定最适合的迁移方案。
同时,混合调度和人工迁移为复杂和定制化需求提供了保障,确保了系统迁移的灵活性和高效性。这种多样化的支持让用户能够轻松升级到WhaleStudio平台,享受现代DataOps的优势和更高效的数据管理。
某金融企业Informatica迁移WhaleStudio客户案例
以下是某金融企业Informatica迁移WhaleStudio具体客户案例:
数据仓库与ETL工具替换架构图
该金融企业的迁移方案是将原有的Teradata+Informatica
架构替换为GaussDB+ WhaleStudio
,形成一个全信创的技术栈。
以下是具体的技术方案描述:
数据源接入与调度
在原有架构中,企业使用Informatica PowerCenter来从文件系统、Oracle和MySQL等数据源获取数据,并通过BTEQ和FastLoad将数据传输至Teradata中的ODS层。然而,这种架构需要多种工具来实现数据同步和调度(如Automation和Informatica),工具之间缺乏统一性,增加了系统复杂性。
在迁移后的架构中,WhaleStudio通过WhaleTunnel模块实现了对文件、Oracle、MySQL等数据源的直接接入。这种设计不仅简化了数据源的接入,还将调度和数据传输集成在一个平台上,减少了工具之间的依赖,提升了操作的流畅性和维护的便捷性。
数据流与处理层
在原有方案中,数据从ODS层通过SQL任务逐层传递到SDATA、PDATA、MID,最终到达PMART层,形成数据仓库的完整结构。Informatica负责数据的调度和同步,而Automation负责数据仓库当中的流程管理和自动化任务,这使得整个数据流转过程分散在不同工具中。
在WhaleStudio方案中,数据从WhaleTunnel接入后,通过SQL任务依次传输到ODS、SDATA、PDATA、MID和PMART层。WhaleStudio的WhaleScheduler模块在此过程中负责所有数据调度、传输和转化任务,无需再依赖外部工具进行额外的调度操作。这样,数据流的所有步骤均在一个平台内完成,减少了系统耦合性并提高了可维护性。
数据库架构与信创合规
迁移方案中,数据仓库从原有的Teradata迁移到GaussDB,确保整个方案符合信创合规要求。GaussDB作为底层存储解决方案,而Informatica无法支持新创相关产品和环境。而WhaleStudio有多个新创产品体系认证,结合结合WhaleStudio的DataOps功能,提供了从数据接入、处理到存储的全流程管理。WhaleStudio支持通过SQL和可视化界面对这些步骤进行操作和监控,使数据工程师能够更高效地管理和优化数据流,实现全面新创合规。
自动化与批量处理
在原有架构中,Teradata BTEQ和FastLoad工具被用于批量数据加载和转换。这些工具虽然功能强大,但需要手动配置和额外的操作步骤。迁移到WhaleStudio后,企业通过其内置的自动化任务和批处理功能,能够更轻松地配置和运行复杂的数据流。所有数据的批量处理和调度都可以在WhaleStudio中通过简单的图形化界面进行设置和监控。
端到端数据管理与未来扩展
新的技术方案通过WhaleStudio实现了从数据源到PMART数据集市的端到端调度和集成,提供了一个完整的DataOps解决方案。企业未来可以在此基础上引入数据湖、大数据平台该和OLAP引擎,进一步支持实时数据分析和更复杂的数据处理场景,确保架构具备良好的扩展性和应变能力。
迁移过程与结果
从WhaleStudio迁移到Informatica的过程中,整个项目涉及到多个技术环节和迁移步骤。迁移方案中,不仅包含数据仓库的迁移,还涉及SQL脚本的转换和迁移过程,确保迁移后的系统能够无缝衔接新架构。
迁移过程
任务迁移与整合:在迁移过程中,项目涵盖了Informatica + Automation组合的3000多个任务。其中,使用自动导入、Excel导入和人工批量生成等方式顺利迁移了超过2900个任务,极大提高了迁移的效率。
任务优化:迁移过程中,对90个任务进行了整合和优化,以简化工作流程和提升整体系统性能。这一步骤确保了在过渡到新环境时,业务逻辑能够得到精简和改进。
手动转换:余下的30多个复杂任务涉及到高级逻辑和自定义处理,必须手动将Informatica中的复杂任务逻辑转换为GaussDB SQL脚本,在ODS层进行进一步处理。这一环节确保了复杂的业务逻辑能够正确映射到新的系统环境中。
项目周期与并行工作
整个Infa+Automation的迁移项目周期为3个月,由3名技术人员负责实施。同时,与数据仓库迁移厂商保持并行工作,共同推进项目进行,总并行期为6个月。通过这种并行工作模式,确保了迁移工作的高效执行和资源的充分利用。
迁移效果
迁移完成后,用户全面切换到信创环境,并完成DataOps流程初步布局。
整体信创包括适配了信创数据库、信创操作系统和信创ETL及大数据开发工具。这不仅使企业实现了自主可控的技术架构,还满足了国家对信创合规的要求。
此外,作为二期工程,本平台准备适配了大数据部门的Hive+Spark场景,同时完成整体DataOps流程,为企业提供了一套统一的开发、调度和同步的DataOps工具,快速满足基于数据仓库、大数据和数据湖的需求:
迁移后的系统能够支持跨系统开发和部署流程,确保了不同系统间的高效集成和协作和CICD工作。同时,企业还受益于完善的售后支持体系,提供持续的技术支持和维护,保障了系统的稳定运行和未来扩展的可能性。
小结
WhaleStudio作为现代化DataOps平台,以其活跃的开源社区、接近200种数据源的适配,一流的调度和开发功能、批流一体化支持和全面的信创适配,成为替换Informatica的理想选择。
通过统一的调度和集成,WhaleStudio简化了开发流程,提升了数据处理效率,尤其在信创合规的环境中展现了极高的适应性。其迁移方法多样且有效,包括自动迁移工具、Excel导入、人工批量生成及手动转换,确保复杂任务的精准迁移。
实际案例中,企业能够通过Infa+WhaleStudio混合模式实现平稳的分阶段迁移,在短时间内成功完成数千个任务的转换与优化,最终实现WhaleStudio对Informatica的全面替换。
迁移后,用户不仅获得了更简化的开发流程和高度集成的数据处理能力,还支持多系统协同和未来的扩展需求,充分体现了WhaleStudio在现代数据管理中的巨大优势。
本文由 白鲸开源科技 提供发布支持!
原文地址:https://blog.csdn.net/DolphinScheduler/article/details/144030450
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!