从 HDFS 迁移到 MinIO 企业对象存储

🕗 发布于 2024-09-20 19:03 开源 人工智能 架构分布式 postgresql

云原生、面向 Kubernetes 、基于微服务的架构推动了对 MinIO 等网络存储的需求。在云原生环境中，对象存储的优势很多 - 它允许独立于存储硬件对计算硬件进行弹性扩展。它使应用程序无状态，因为状态是通过网络存储的，并且通过降低操作复杂性，使应用程序能够实现比以往更高的规模。从网络对象存储系统写入和读取数据的最突出标准是 S3。MinIO 是一种完全符合 S3 标准、高性能、混合和多云就绪的对象存储解决方案。与将数据引入计算的传统方法相比，通过网络存储计算工作负载数据的模式是现代分解架构的缩影。这种方法的好处是多方面的：节省成本、可扩展性和性能。我们的一个客户，一家领先的金融集团，使用 MinIO 而不是 HDFS，节省了 60%+ 的成本性能提升。这种节省绝非非凡。在可扩展性方面，Hadoop 在处理小文件方面的低效率及其对数据局部性的需求限制了其可扩展性，而 MinIO 擅长处理从 KB 到 TB 的各种对象大小。至于性能，大多数老练的 Hadoop 管理员都知道，高性能对象存储后端已成为现代实施的默认存储架构。本文详细介绍了如何通过更改存储协议、数据迁移和性能调整，将对象存储的优势引入 Hadoop。在以下部分中，我们将介绍从 HDFS 迁移到 MinIO E

hdfs:// to s3a://

默认情况下，Hadoop 生态系统中的任何大数据平台都支持与 S3 兼容的对象存储后端。这种支持可以追溯到 2006 年，当时新兴技术嵌入了 S3 客户端实现。所有 Hadoop 相关平台都使用 hadoop-aws 模块和 aws-java-sdk-bundle 来为 S3 API 提供支持。通过指定适当的协议，应用程序可以在 HDFS 和 S3 存储后端之间无缝切换。对于 S3，协议方案为 s3a：//，对于 HDFS，方案为 hdfs://。

Hadoop SDK 中的 S3 客户端实现多年来不断发展，每个协议方案都有不同的协议方案名称，例如 s3：//、s3n：// 和 s3a：//。目前 s3：// 表示 Amazon 的 EMR 客户端。Hadoop 生态系统中可用的最突出的 S3 客户端是 s3a：//，它适用于所有其他 S3 后端。

注意：s3n：// 已失效，不再受任何主要 Hadoop 供应商支持。

迁移的第一步是将 Hadoop 用于与后端存储通信的协议从 hdfs:// 更改为 s3a：//。在平台的 core-site.xml 文件中，更改以下参数 Hadoop.defaultFS 以指向 s3 后端。

<name>fs.default.name</name>

</property>

<name>fs.default.name</name>

<value>s3a://minio:9000/</value>

</property>

有几种方法可以迁移到 MinIOAIstore。您可以将旧数据保留在 HDFS 中供 Hadoop 访问，而新数据保存在 MinIO 中，以供 Apache Spark 等云原生应用程序访问。您可以将所有内容移动到 MinIO，以便 Hadoop 和云原生应用程序访问它。或者，您可以选择执行部分迁移。您必须为您的组织选择最好的。我将在下面介绍如何进行完整迁移，并在以后的博客文章中更深入地了解如何规划迁移。

将数据从 HDFS 迁移到 S3

可以使用名为 distcp 的 Hadoop 原生工具在不同的存储后端之间迁移数据，distcp 代表分布式复制。它需要两个参数：source 和 destination。源和目标可以是 Hadoop 支持的任何存储后端。在此示例中，为了将数据从 HDFS 移动到 s3，必须将源设置为 hdfs://192.168.1.2:9000 ，目标为 s3a：//minio：9000 。

>_ # configure the source and destination
>_ export src=hdfs://192.168.1.2:9000

>_ export dest=s3a://minio:9000

>_
>_ # perform the copy
>_ Hadoop distcp $src $dest

根据数据的大小和传输速度，distcp 本身可以扩展，并且可以使用大规模并行基础设施迁移数据。映射器的数量，即复制数据的并行任务的数量，可以使用 -m 标志进行配置。一个好的经验法则是将其设置为基础设施中所有节点的可用 CPU 内核数。例如，如果您有 8 个空闲节点，每个节点有 8 个内核，则 CPU 内核的数量将为 64。

>_ # configure the number of mappers
>_ export num_cpu_cores=64

>_
>_ # perform the copy with higher parallelism for large datasets
>_ Hadoop distcp -m $num_cpu_cores $src $dest

注意：映射器的数量应对应于基础设施中的可用内核数量，而不是整个集群中的内核总数。这是为了确保其他工作负载具有可用于其操作的资源。

优化性能

Hadoop 和 MinIO 之间的数据访问模式大不相同。根据设计，对象存储系统不支持编辑。这在其实现数 PB 规模的能力中起着关键作用。其次，在对象存储系统中将数据从一个位置复制到另一个位置的成本很高，因为该操作会产生服务器端副本。某些对象存储系统并不严格一致，这可能会使 Hadoop 感到困惑，因为文件可能不会显示，或者如果最终一致，则已删除的文件可能会在列出操作期间显示。

注意：MinIO 没有一致性缺点，因为它是严格一致的。

考虑到这些因素，很容易调整您的应用程序以成为 Object Storage 原生应用程序。为了帮助加快这一旅程，已经付出了巨大的努力，那就是将 S3 提交程序引入 Hadoop。顾名思义，S3 提交程序承诺向 S3 提供一致、可靠和高性能的数据承诺。提交者更改 S3 中数据的读/写访问模式。首先，它们避免了服务器端副本，否则 Hadoop 应用程序会广泛使用服务器端副本，以允许多个 Hadoop 工作线程原子写入数据。一些提交者甚至使用本地驱动器作为缓存，并且只将最终输出写入 MinIO以提高性能。有三个提交程序，每个提交程序都有不同的权衡来处理各种用例。他们是：

目录提交者
分区 Committer
提交者

为了在应用程序中启用 committer，请在 core-site.xml 文件中设置以下配置：


<property>

    <name>mapreduce.outputcommitter.factory.scheme.s3a</name>

    <value>org.apache.Hadoop.fs.s3a.commit.S3ACommitterFactory</value>

    <description>

       The committer factory to use when writing data to S3A filesystems.

    </description>

</property>

目录提交者

此提交程序首先更改访问模式以在本地（缓存驱动器）写入数据，一旦收集到要写入的数据的最终版本，就会执行写入。这种编写风格更适合分布式计算和 MinIO通过快速网络连接，并通过防止服务器端副本大大提高性能。要选择此提交程序，请将以下参数 fs.s3a.committer.name 设置为 directory。


<property>

    <name>fs.s3a.committer.name</name>

    <value>directory</value>

</property>

分区 Committer

此提交程序类似于目录提交程序，不同之处在于它处理冲突的方式。目录提交程序通过考虑整个目录结构来处理写入同一文件的不同 Hadoop 工作程序的冲突。对于分区的提交程序，冲突是逐个分区处理的。如果目录结构是深度嵌套的或通常非常大，则与目录提交程序相比，此提交程序提供更高的性能。仅建议将其用于 Apache Spark 工作负载。


<property>

    <name>fs.s3a.committer.name</name>

    <value>partitioned</value>

</property>

Magic 提交者

这个 committer 的内部工作原理不太为人所知，因此命名为 Magic committer。它会自动选择最佳策略以实现尽可能高的性能。它仅适用于严格一致的 S3 存储。由于 MinIO 是严格一致的，因此可以安全地使用 Magic committer。建议在您的工作负载中尝试此提交程序，以将性能与其他提交程序进行比较。

<property>

    <name>fs.s3a.committer.name</name>

    <value>magic</value>

</property>

选择 Committer 的一个好的经验法则是从最简单且最可预测的目录 Committer 开始，如果您的应用程序需求不能得到满足，请尝试其他两个 Committer（如果适用）。一旦选择了合适的提交者，您的应用程序就可以接受性能和正确性的测试。

原文地址：https://blog.csdn.net/miniopro/article/details/142353764

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数据库的操作：DML数据操纵语言：增删修改查（insert/delete/update/select）
下一篇：Linux：重定向以及管道

rabbitmq 短信验证码
新建一个springboot项目,引入web，redis，rabbitmq。
阅读更多2024-09-21
tomcat中间件漏洞CVE-2017-12615，后台弱口令部署war包，CVE-2020-1938
2. ⽂件上传成功后，默认会在⽹站根⽬录下⽣成和war包名称⼀致得⽬录，然后⽬录中得⽊⻢就是压缩前的⽂件名。漏洞复现 http://172.16.1.22:8080/manager/html。制作W
阅读更多2024-09-21
力扣 438找到字符串中所有字母异位词
通过滑动窗口进行遍历，通过"hash"将字符串子串映射到异位词表示空间每一个表示代表了一个异位词空间(一个字符串的所有元素的全排列广义上讲，以上方法都属于一种hash。
阅读更多2024-09-21
数据结构 - 树与二叉树
/数据域//左结点与右结点的指针。
阅读更多2024-09-21
【STL】map和set相关知识详细梳理
1. set是按照一定次序存储元素的容器。2. 在set中，元素的value就是key，并且每个value必须是唯一的。set中的元素不能在容器中修改(元素总是const)，但是可以从容器中插入或删除
阅读更多2024-09-21
Day4:杨辉三角
题目：给定一个非负整数numRows,生成杨辉三角的前numRows行。在杨辉三角中，每个数就是左上方和右上方数的和。
阅读更多2024-09-21
Android Retrofit源码分析（一）：Retrofit是什么？和OkHttp的区别是什么？为什么需要他？
为什么会出现Retrofit？它的作用是什么？
阅读更多2024-09-21
微服务远程调用（nacos及OpenFeign简单使用）
问题：在微服务中，每个项目是隔离开的，当有一个项目请求其他项目中的数据时，必须发起网络请求，本文即对此问题展开讨论。
阅读更多2024-09-21
数字签名和CA数字证书的核心原理
看了蛋老师的视频就很容易理解了，首先对服务器的公钥和信息进行哈希运算得到一个短字符串，然后用CA机构中的私钥对这一短字符串进行加密就得到了一个数字签名，然后就这个数字签名放到数字证书中，同时服务器的公
阅读更多2024-09-21
git 操作远程别名
【代码】git 操作远程别名。
阅读更多2024-09-21