【大数据面试题】37 Doris 是怎么保证性能的？

🕗 发布于 2024-07-22 08:57 大数据

一步一个脚印，一天一道大数据面试题

博主希望能够得到大家的点赞收藏支持！非常感谢
点赞，收藏是情分，不点是本分。祝你身体健康，事事顺心！

Doris 是当下大热的 MPP 数据库，下面来聊聊它如何保证高性能 的部分
没写完，写的比较粗糙，但完成比完美重要，先发出来，明天再修改

1. MPP 大规模并行处理架构，容易算力拓展

生来就是分布式的架构，算力拓展很方便。不只是MPP数据库，这是大数据组件提高算力的经典方式，通过横向拓展更便宜的机器提高算力，可以有很高算力上限。

2. 数据模型进行预处理，提高速度减少存储压力

Doris 有 3 钟数据模型：明细模型 Duplicate，主键模型 Unique，聚合模型 Aggregate；
Aggregate 聚合模型，会将 key 列相同的数据，聚合 value 列（MAX, MIN, REPLACE等）。Unique 主键模型也是 key 列数据完全相同的数据，后来的数据会替换旧数据，以保证主键的唯一性。Duplicate 明细数据模型则是不做聚合。
可以看到，聚合，主键模型都会一定程度的聚合数据，减少存储压力。而这样的预处理，可以把一部分查询需要的任务提前， IO 提前，进而大幅度提高查询速度。

3. ROLLUP 和物化视图，进一步预处理，提高查询速度

ROLLUP，物化视图，也是在数据加载完后自动开始预处理，聚合。这两个方法都是将 处理任务提前，并一定程度的空间换时间

4. 索引

点查索引
快速找到符合条件的数据
- 前缀索引
  由于 Doris 存储数据的数据结构是 SST （Sort String Table） ，是一种排序的存储结构，所以数据的存储都会被排序（像我们的新华字典会按照首字母排序一样），所以可以取稀疏索引。前缀索引，就是利用排序后的数据，取一些字段做索引，每隔1024行取一行。
- 倒排索引
  Elastic Search 的经典数据结构，在全文检索时非常好。
跳数索引
- ZoneMap 索引
  个人的理解就是会统计每一块的信息（最大最小值，是否有空值等）
- Bloom Filter 索引
- NGram Bloom Filter 索引

官网描述

我是近未来，祝你变得更强！

原文地址：https://blog.csdn.net/Jiweilai1/article/details/140391302

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

JS 函数的基本知识
JS 函数的基本知识
阅读更多2024-11-10
《计算机原理与系统结构》学习系列——存储器（上）
例如，当一个处理器启动时，cache中没有数据，标记域中的值没有意义。因此，在cache中，这些块的标记应该被忽略。对于全相联映射，比较标记位的开销太大，有一种折中的办法，对cache进行分组，一个内
阅读更多2024-11-10
提升网站流量的秘诀：SEO和关键词优化实用指南
在数字营销的竞争中，提升网站流量至关重要。本文将深入探讨SEO和关键词优化的实用技巧，帮助你掌握如何有效提升网站在搜索引擎中的排名。通过选择合适的关键词、优化页面内容以及提升用户体验，实现流量的稳步增
阅读更多2024-11-10
比较级与最高级
在英语中，形容词和副词有三种基本形式：原级（positive degree）、比较级（comparative degree）和最高级（superlative degree）。比较级和最高级主要用于描述
阅读更多2024-11-10
证书学习（六）TSA 时间戳服务器原理 + 7 个免费时间戳服务器地址
证书学习（六）TSA 时间戳服务器原理 + 7 个免费时间戳服务器地址
阅读更多2024-11-10
AUTOSAR CP SocketAdaptor（SoAd）规范导读
套接字连接方面，TCP/IP 通信基于 Internet 套接字，它是通信链路的端点，由元组 IP 地址和端口标识。在 UDP 套接字中用于无连接通信，而 TCP 套接字用于面向连接的通信，要求一方建
阅读更多2024-11-10
Redhat8.6安装JDK1.8
【代码】Redhat8.6安装JDK1.8
阅读更多2024-11-10
GNU/Linux - /proc/sys/vm/drop_caches
总之，虽然 /proc/sys/vm/drop_caches 提供了在 Linux 中手动释放各种缓存的方法，但应谨慎使用，并主要用于测试或调试目的。/proc/sys/vm/drop_caches
阅读更多2024-11-10
InterPVD部分漏洞成因分析
本文是对 On the Effectiveness of Function-Level Vulnerability Detectors for Inter-Procedural Vulnerabili
阅读更多2024-11-10
使用C++和QT开发应用程序入门以及开发实例分享
本文详细介绍了使用C++和QT开发应用程序入门，并分享了一个开发实例。
阅读更多2024-11-10

【大数据面试题】37 Doris 是怎么保证性能的？

1. MPP 大规模并行处理架构，容易算力拓展

2. 数据模型进行预处理，提高速度减少存储压力

3. ROLLUP 和 物化视图，进一步预处理，提高查询速度

4. 索引

相关文章

3. ROLLUP 和物化视图，进一步预处理，提高查询速度