Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

🕗 发布于 2024-07-12 05:17 hadoop sqoop mysql 大数据 分布式

章节内容

上一节我们完成了如下的内容：

编写一个 SQL 脚本生成数据
启动我们的依赖服务：HDFS、Hive、YARN
Sqoop 将数据全量导入 Hive
查看MapReduce状态、查看HDFS结果

背景介绍

这里是三台公网云服务器，每台 2C4G，搭建一个Hadoop的学习环境，供我学习。
之前已经在 VM 虚拟机上搭建过一次，但是没留下笔记，这次趁着前几天薅羊毛的3台机器，赶紧尝试在公网上搭建体验一下。

2C4G 编号 h121
2C4G 编号 h122
2C2G 编号 h123

在这里插入图片描述

注意事项

Apache Sqoop 于 2021 年 6 月迁入 Attic。
Apache Sqoop 的使命是创建和维护与 Apache Hadoop 和结构化数据存储相关的大规模数据传输软件。
虽然项目已经可能过时，但是如果你的时间充裕的话，可以适当地学习一下，可能会对你有一定的帮助的！！！

部分导入: --query

执行脚本

sqoop import \
--connect jdbc:mysql://h122.wzk.icu:3306/sqoop \
--username hive \
--password hive@wzk.icu \
--target-dir /root \
--append \
-m 1 \
--fields-terminated-by "\t" \
--query 'select gname, serialNumber, price, stock_number,
create_time from goodtbl where price>88 and $CONDITIONS;'

上述参数的解释：

查询语句的where中必须包含 ‘$CONDITIONS’
如果query后使用双引号则 $CONDITIONS 前必须加转移符号，防止shell认为是自己的变量

分配任务

可以观察到 Sqoop 开始了 MapReduce 的任务
在这里插入图片描述

等待执行

此时任务已经开始分配了 Map -> Reduce
在这里插入图片描述

查看结果

可以看到任务执行完毕
在这里插入图片描述

部分导入: 指定列

执行脚本

sqoop import \
--connect jdbc:mysql://h122.wzk.icu:3306/sqoop \
--username hive \
--password hive@wzk.icu \
--target-dir /root \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns gname,serialNumber,price \
--table goodtbl

上述参数的解释：

columns中如果涉及到多个列，用逗号分隔，不能添加空格！！！

分配任务

与上述的内容一致，就不放重复的内容了，只截取部分。
在这里插入图片描述

部分导入: --where

执行脚本

sqoop import \
--connect jdbc:mysql://h122.wzk.icu:3306/sqoop \
--username hive \
--password hive@wzk.icu \
--target-dir /root \
--delete-target-dir \
-m 1 \
--fields-terminated-by "\t" \
--table goodtbl \
--where "price>=68"

分配任务

与上述一致，内容结果等基本重复，也不放了。

请添加图片描述

原文地址：https://blog.csdn.net/w776341482/article/details/140341727

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：某客户管理系统Oracle RAC节点异常重启问题详细分析记录
下一篇：LeetCode题解：2319. 判断矩阵是否是一个 X 矩阵，JavaScript，详细注释

【Vue.js设计与实现】第三篇第10章：渲染器-双端 Diff 算法-阅读笔记
本章我们介绍了双端 Diff 算法的原理及其优势。双端 Diff 算法指的是，在新旧两组子节点的四个端点之间分别进行比较，并试图找到可复用的节点。相比简单 Diff 算法，双端 Diff 算法的优势在
阅读更多2024-10-19
Flutter Scaffold组件
想象一下，你正在建造一座房子，每个房间都代表着应用用户界面的不同部分。在Flutter中，这些房间被称为widget。就像在房子里，每个房间都有不同的家具和装饰一样，Flutter widgets是构
阅读更多2024-10-19
rootless模式下istio ambient鉴权策略
在rootless模式下的kind k8s集群，兼容istio ambient鉴权策略设置。
阅读更多2024-10-19
flutter assets配置加载本地图片报错
需要注意的是，目录批量指定并不递归，只有该目录下的文件可以被包括，如果有子目录，需要单独声明子目录下的文件‌。目录下的文件都将被包含进来，而不需要逐个列出每个文件‌。这里着重强调的最新版的flutte
阅读更多2024-10-19
预训练模型通过 prompt（提示）生成的“软标签”是什么
软标签（Soft Label）通常指的是模型预测结果中输出的概率分布。例如，如果一个分类任务中有3个类别，模型的输出可能是：这意味着模型认为输入数据属于类别1的概率是70%，类别2是20%，类别3是1
阅读更多2024-10-19
OpenAI Prompt generation - 生成和优化Prompt的Prompt
OpenAI Prompt generation - 生成和优化Prompt的Prompt
阅读更多2024-10-19
【4.10】图搜索算法-BFS和DFS解电话号码的字母组合
给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按返回。给出数字到字母的映射如下（与电话按键相同）。注意 1 不对应任何字母。
阅读更多2024-10-19
大数据实验3： HDFS基础编程
，否则返回文件一行的文本。在 Hadoop 分布式文件系统（HDFS）中的作用是将本地文件系统中的文件 localfile 上传到 HDFS 上的目录 hdfsdir1 中。10、hdfs dfs -
阅读更多2024-10-19
从算盘到云计算：计算机发展的壮丽历程
早期计算器的出现对计算机发展起到了重要作用。从算盘到机械计算器，再到现代计算机的诞生，计算能力不断提升，速度和通用性也得到了显著提升。个人电脑和移动计算机成为生活和工作中不可或缺的工具，云计算使计算机
阅读更多2024-10-19
神经网络构建与训练深度学习模型全过程（PyTorch & TensorFlow）
神经网络（Neural Network）是一种模拟人脑神经元的数学模型，其目的是通过模拟神经元之间的连接与传递信息的方式，来完成复杂的数据处理任务。神经网络由若干层神经元组成，通常分为输入层、隐藏层和
阅读更多2024-10-19

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

章节内容

背景介绍

注意事项

部分导入: --query

执行脚本

分配任务

等待执行

查看结果

部分导入: 指定列

执行脚本

分配任务

部分导入: --where

执行脚本

分配任务

相关文章