读数据湖仓08数据架构的演化

🕗 发布于 2024-10-06 18:54 架构 大数据 数据库 数据湖仓数据分析

1. 数据目录

1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中

1.1.1. 元数据
1.1.2. 数据模型
1.1.3. 本体
1.1.4. 分类标准

1.2. 数据目录类似于图书馆的图书检索目录

1.2.1. 先通过图书馆的图书检索目录进行查找，以便快速找到所需的图书
1.2.2. 数据目录的运行方式与此类似，它负责连接组织中的所有文档和数据库
1.2.3. 利用数据目录在基础数据中进行检索，能够节约大量的时间

1.3. 永久维护

1.3.1. 数据目录经常被忽略的一个因素是它总在变化
1.3.2. 数据目录也在不断地被更新维护
1.3.3. 持续不断更新维护数据目录的原因
- 1.3.3.1. 业务环境持续变化
- 1.3.3.2. 系统不断变化
- 1.3.3.3. 不断加入新系统

1.4. 开放

1.4.1. 数据目录应该是开放的，且可供组织中的任何人分析使用，唯一例外的是那些试图对组织发起恶意行为的人
1.4.2. 管理人员
1.4.3. 文员
1.4.4. 日常运营人员
1.4.5. 审计师
1.4.6. 分析人员

1.5. 不同数据类型的内部结构

1.5.1. 结构化的数据目录可以在不同类型的数据之间产生关系

1.6. 分析工具可以用于处理数据目录中的数据，就像它可以用于分析基础数据中的详细数据一样

1.6.1. 以独立于基础数据对数据目录进行分析
1.6.2. 与大容量存储器不同，数据目录是数据湖仓的必要组成部分

2. 数据架构的演化

2.1. 数据架构是多类型数据处理的核心

2.1.1. 没有数据架构，就没有坚实的数据基础可依赖
2.1.2. 人工智能、机器学习和数据网格只有依赖数据架构，才能在各自的环境中取得成功

2.2. 数据湖仓中的基础数据是基于深思熟虑和精细设计的数据架构而来的

2.3. 伊始

2.3.1. 应用程序只能读取输入，处理后并生成输出
2.3.2. 简单的应用程序能够在企业等组织中高效地执行重复性工作，从而为组织节省大量工作时间

2.4. 应用程序

2.4.1. 发现还可以编写更加复杂的应用程序
2.4.2. 由于新的应用程序开始处理大量数据，并且生成更多的数据，因此，当时使用的存储介质（如打孔卡片和纸带）已经不足以存储这些数据

2.5. 磁带文件

2.5.1. 随着发展，磁带文件成为数据存储的主要媒介
2.5.2. 相比早期媒介，磁带文件能够存储更多的数据
2.5.3. 与打孔卡片相比，磁带文件有许多优势，如存储成本更低，不需要固定长度的记录，并且可以重复使用
2.5.4. 随着磁带文件的出现，主文件(Master File)的概念随之而来
- 2.5.4.1. 主文件对于收集和存储组织的主要实体（如客户、产品和运输）的相关数据非常有用，它的理念是将相关信息集中存储在一个地方
2.5.5. 磁带文件可以更有效地存储数据，但是在使用磁带文件时，要想访问单条记录，则必须读取整个文件
- 2.5.5.1. 导致长时间的低效处理
2.5.6. 虽然磁带文件解决了打孔卡片的众多问题，但也引入了一系列新的挑战
2.5.7. 磁带文件也不能长时间保存数据
- 2.5.7.1. 当磁带文件存储一段时间后，磁带文件上的氧化物会磨损而导致文件损坏，进而变得毫无价值

2.6. 硬盘存储

2.6.1. 随着硬盘存储系统的出现，我们能够更加便捷地电子化存储和访问数据
2.6.2. 数据库管理系统应运而生，负责管理这些数据
2.6.3. 随着时间的推移，硬盘存储的生产成本逐步降低，最终变得经济实惠
2.6.4. 硬盘存储带来的一项创新功能是可以便捷地直接存取数据，而不需要遍历整个文件

2.7. OLTP

2.7.1. 由于数据能够快速存取，因此出现了一种被称为联机事务处理(OLTP)的技术
2.7.2. OLTP使得计算机成为组织日常业务处理的重要组成部分
2.7.3. OLTP将计算机的角色从仅处理后台任务提升到直接与客户进行接口交互
2.7.4. 当计算机不可用或响应速度变慢时，业务将会受到影响
2.7.5. OLTP应用程序会尽可能快地丢弃数据以保持响应速度
2.7.6. 在历史数据变得愈发重要时，OLTP中却没有适合存储历史数据的位置

2.8. 个人计算机

2.8.1. 个人计算机变得非常受欢迎。它的价格低廉，轻量便携，甚至可以随身携带
2.8.2. 个人计算机为那些从未接触过计算机技术的人群打开了学习计算机的大门
2.8.3. 个人计算机赋予终端用户更多自主权
2.8.4. 多年来，IT部门一直是决定构建哪些应用程序以及允许哪些计算机能够被访问的唯一决策机构
2.8.5. 随着个人计算机的进一步普及，IT部门逐渐失去计算机的控制权

2.9. 4GL处理技术和数据抽取应用程序

2.9.1. 4GL（Fourth Generation Language，第四代编程语言）处理的技术应运而生
2.9.2. 4GL处理技术使终端用户不再需要依赖IT部门来进行处理和编程
2.9.3. 数据抽取应用程序在不同应用程序之间迁移和传递数据方面扮演重要角色
2.9.4. 数据抽取应用程序与众多应用程序的结合导致了数据的不一致性问题
- 2.9.4.1. 现在面临的挑战不再是找不到数据，而是要找到可信的数据
2.9.5. 数据的不一致性问题是一个架构问题，而非技术问题
- 2.9.5.1. 增加更多技术只会让问题变得更糟，而不是更好
2.9.6. 从应用程序生成的数据到企业数据的转换并不是唯一的问题
2.9.7. 长时间存储数据变得相当必要
- 2.9.7.1. 在数据仓库应用程序出现之前，事务处理仅能够存储较短时间的数据，通常为几周到一个月
- 2.9.7.2. 如果应用程序数据存储时间较长，那么事务响应速度会受到影响
- 2.9.7.3. 人们发现将数据存储时间延长超过几周是有价值的
  
  2.9.7.3.1. 历史数据有助于我们发现和分析消费者的消费习惯

2.10. 数据仓库

2.10.1. 提供企业数据视图
2.10.2. 可用于分析即时可用的数据
2.10.3. 可通过多种方式重塑粒度数据
2.10.4. 可以将历史数据用于长期分析
2.10.5. 数据仓库的架构持续了相当长的时间，至今仍在使用

2.11. 数据集市

2.11.1. 为了满足对特定领域中数据使用的需求，一种被称为数据集市的架构出现
2.11.2. 数据集市使用数据仓库中已有的粒度数据，并将其重塑为终端用户需求的形式和结构
2.11.3. 通过数据集市，不同部门能够获取一致的数据，因为它们所看到的数据来源是相同的，那就是数据仓库

2.12. ⑩互联网和物联网数据

2.12.1. 互联网还提供了大量来自世界各地的数据

2.13. ⑾数据湖

2.13.1. 在技术和数据的竞合过程中出现了一种数据架构——数据湖
2.13.2. 数据湖就会变成数据沼泽，或者也可以称为数据臭水沟
2.13.3. 由于数据湖中的数据是未集成的，因此人们不清楚很多数据的内容
2.13.4. 数据湖巨大无比，这导致人们难以找到他们想要的具体数据
2.13.5. 数据湖中的数据没有进行任何整合，人们没有办法将其中一种类型的数据与其他类型的数据进行合理关联
2.13.6. 由于数据形式非常混乱，人们无法有效地连接多个数据元素

2.14. ⑿数据湖仓

2.14.1. 在数据湖混乱的背景下，数据湖仓诞生
2.14.2. 数据湖仓为数据湖添加了功能——分析基础设施，并在将数据存入数据湖仓之前进行集成
2.14.3. 数据湖仓成为一个可行的数据架构，能够满足组织的分析需求
2.14.4. 前数据湖仓是一个成熟的架构，可以满足需求
2.14.5. 未来肯定还会出现架构增强的数据湖仓，以及与数据湖仓不同的形式，以支持新的需求

原文地址：https://blog.csdn.net/lyingSeven/article/details/142659921

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

vite学习教程03、vite+vue2打包配置
本文介绍了如何通过修改`vite.config.js`来优化Vite项目的配置。首先，增加了基础路径和插件配置，使用`defineConfig`来定义项目配置，并通过`vue2`插件支持Vue 2。接
阅读更多2024-10-06
Java重修笔记第六十天坦克大战（十）IO 流 - FileReader 和 FileWriter
一旦流已关闭，进一步的read（），ready（），mark（），reset（）或skip（）调用将抛出IOException。异常：FileNotFoundException - 如果命名文件不存在
阅读更多2024-10-06
C# 非泛型集合基础：ArrayList与Hashtable的使用与注意事项
在C#中，ArrayList和Hashtable是两个非泛型的集合类，它们在.NET Framework的早期版本中广泛使用，但在现代C#开发中，由于泛型集合（如List和）提供了更好的类型安全性和性
阅读更多2024-10-06
分享一个餐饮连锁店点餐系统餐馆食材采购系统Java、python、php三个版本（源码、调试、LW、开题、PPT)
餐饮连锁店点餐系统采用Java、python、php三种语言，分别做了三个版本，每个版本的页面设计、功能模块如文中所示。
阅读更多2024-10-06
张雪峰谈人工智能技术应用专业的就业前景！
张雪峰老师指出，人工智能技术应用专业是当今科技发展的前沿领域，它融合了计算机科学、数学、控制论、语言学、心理学等多学科知识，是一门综合性极强的专业。随着大数据、云计算、物联网等技术的快速发展，人工智能
阅读更多2024-10-06
南昌网站建设让你的企业网站更具竞争力
在南昌，许多网站建设公司拥有丰富的设计经验和技术支持，能够帮助企业量身打造符合其行业特点的网站，提升整体用户体验。南昌的专业网站建设团队可以在网站建设过程中，融入SEO（搜索引擎优化）思想，使网站更容
阅读更多2024-10-06
基于深度学习的手势控制模型
多手势识别和控制机制的集成：项目中使用了Mediapipe的手部检测模块，能够实时跟踪手部关键点并识别多种手势信号（如“拳头闭合”、“手上移”、“两指显示”和“三指显示”）(fingerutils)。
阅读更多2024-10-06
【笔记】Day1.1.24测试
（二）进入框起来的侧边栏输入想登录的账号和密码以及key和验证码（code）获取到token之后来到（三）直接清空原有的token粘贴新的进去。然后在接口网页的侧边栏就可以访问了（亲测已成功）（四
阅读更多2024-10-06
MySQL 实验 2：数据库的创建与管理
MySQL数据库的创建与删除，查看数据库，选择数据库
阅读更多2024-10-06
VBA数据库解决方案第十五讲：Recordset集合中单个数据的精确处理
VBA数据库解决方案》教程（版权10090845）是我推出的第二套教程，目前已经是第二版修订了。这套教程定位于中级，是学完字典后的另一个专题讲解。数据库是数据处理的利器，教程中详细介绍了利用ADO连接
阅读更多2024-10-06

读数据湖仓08数据架构的演化

1. 数据目录

2. 数据架构的演化

相关文章