【数据采集工具】Sqoop从入门到面试学习总结

🕗 发布于 2024-10-17 21:52 sqoop 面试学习 大数据 经验分享

国科大学习生活（期末复习资料、课程大作业解析、大厂实习经验心得等）: 文章专栏（点击跳转）
大数据开发学习文档（分布式文件系统的实现，大数据生态圈学习文档等）: 文章专栏（点击跳转）

【数据采集工具】Sqoop从入门到面试学习总结

一、什么是Sqoop？
二、Sqoop的简单使用案例
三、脚本打包
四、Sqoop一些常用命令及参数
参考文献

一、什么是Sqoop？

1.1 Sqoop简介

在这里插入图片描述
Apache Sqoop（SQL-to-Hadoop Optimized Import/Export）是一个用于在关系型数据库管理系统（RDBMS）和Apache Hadoop之间的数据传输的工具。它旨在使大量数据的导入导出操作变得简单和高效。

Sqoop原理架构图：

在这里插入图片描述

1.2 Sqoop的主要特点

批量数据传输：Sqoop可以高效地将大量数据从关系型数据库批量导入到Hadoop的HDFS中，或者将数据从HDFS批量导出到关系型数据库。
自动代码生成：Sqoop能够自动生成用于导入导出数据的代码，这使得开发者无需深入了解底层的复杂性。
- Sqoop原理：将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
数据类型映射：Sqoop支持自动转换关系型数据库和Hadoop之间不同的数据类型。
增量数据导入：Sqoop支持增量导入，这意味着它可以只导入自上次导入后发生变化的数据。
并行数据传输：Sqoop可以并行地从多个数据库表中导入数据，以提高数据传输效率。
数据压缩：为了减少网络传输的数据量，Sqoop支持数据压缩。
错误处理：Sqoop提供了错误处理机制，例如在数据导入过程中遇到错误时，可以选择跳过错误记录或停止操作。
集成：Sqoop可以与Hadoop生态系统中的其他组件（如Hive和HBase）集成，以支持更复杂的数据处理任务。

1.3 Sqoop的基本命令格式

导入数据：

sqoop import \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--table <表名> \
--target-dir <目标目录> \
--fields-terminated-by <字段分隔符> \
--lines-terminated-by <行分隔符> \
--columns <列名列表>

导出数据：

sqoop export \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--table <表名> \
--input-null-string <输入中表示NULL值的字符串> \
--input-null-non-string <输入中表示NULL值的非字符串值> \
--export-dir <导出数据的源目录> \
--input-fields-terminated-by <输入字段的分隔符> \
--input-lines-terminated-by <输入行的分隔符> \
--columns <列名列表>

增量导入数据语法示例：

sqoop import \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--table <表名> \
--target-dir <目标目录> \
--incremental <模式> \
--check-column <检查列> \
--last-value <上次导入的值>

列出数据库语法示例：

sqoop list-databases 
--connect jdbc:mysql://hadoop102:3306/ 
--username root 
--password root

查看表的结构语法示例：

sqoop eval \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--query "DESCRIBE <表名>"

Sqoop是Hadoop生态系统中重要的数据迁移工具，它简化了传统数据库与大数据平台之间的数据交换过程。

二、Sqoop的简单使用案例

2.1 导入数据

在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用import关键字。

2.1.1 RDBMS 到 HDFS

确定Mysql服务开启正常

在Mysql中新建一张表并插入一些数据

$ mysql -uroot -p000000 
mysql> create database company; 
mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255)); 
mysql> insert into company.staff(name, sex) values('Stan', 'Male'); 
mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale');

导入数据

全部导入

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--table staff \ 
--target-dir /user/company \ 
--delete-target-dir \ 
--num-mappers 1 \ 
--fields-terminated-by "\t"

查询导入

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--target-dir /user/company \ 
--delete-target-dir \ 
--num-mappers 1 \ 
--fields-terminated-by "\t" \ 
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

提示：must contain ‘$CONDITIONS’ in WHERE clause.
如果query后使用的是双引号，则$CONDITIONS前必须加转移符，防止shell识别为自己的变量。

导入指定列

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \
--username root \ 
--password 000000 \ 
--target-dir /user/company \ 
--delete-target-dir \ 
--num-mappers 1 \ 
--fields-terminated-by "\t" \ 
--columns id,sex \ 
--table staff

提示：columns中如果涉及到多列，用逗号分隔，分隔时不要添加空格。

使用sqoop关键字筛选查询导入数据

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--target-dir /user/company \ 
--delete-target-dir \ 
--num-mappers 1 \ 
--fields-terminated-by "\t" \ 
--table staff \ 
--where "id=1"

2.1.2 RDBMS 到 Hive

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--table staff \ 
--num-mappers 1 \ 
--hive-import \ 
--fields-terminated-by "\t" \ 
--hive-overwrite \ 
--hive-table staff_hive

提示：该过程分为两步，第一步将数据导入到HDFS，第二步将导入到HDFS的数据迁移到 Hive仓库（默认还是存储到HDFS上）。

2.1.3 RDBMS 到 Hbase

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--table company \ 
--columns "id,name,sex" \ 
--column-family "info" \ 
--hbase-create-table \ 
--hbase-row-key "id" \ 
--hbase-table "hbase_company" \ 
--num-mappers 1 \ 
--split-by id

提示：sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能.
解决方案：手动创建HBase表

hbase> create 'hbase_company,'info'

2.2 导出数据

在Sqoop中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用export关键字。

2.2.1 Hive/HDFS到RDBMS

$ bin/sqoop export \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--table staff \ 
--num-mappers 1 \ 
--export-dir /user/hive/warehouse/staff_hive \ 
--input-fields-terminated-by "\t"

提示：Mysql中如果表不存在，不会自动创建。

三、脚本打包

使用opt格式的文件打包sqoop命令，然后执行。

创建一个.opt文件

$ mkdir opt 
$ touch opt/job_HDFS2RDBMS.opt

编写sqoop脚本

$ vi opt/job_HDFS2RDBMS.opt 
export --connect jdbc:mysql://hadoop102:3306/company 
--username root 
--password 000000 
--table staff 
--num-mappers 1 
--export-dir /user/hive/warehouse/staff_hive 
--input-fields-terminated-by "\t"

执行该脚本

$ bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

四、Sqoop一些常用命令及参数

4.1 导入数据命令选项

参数	描述
`--connect`	指定数据库连接URL
`--username`	指定数据库用户名
`--password`	指定数据库密码
`--table`	指定要导入的数据库表名
`--columns`	指定要导入的列
`--target-dir`	指定导入数据的目标目录
`--where`	指定导入数据的条件
`--split-by`	指定用于拆分数据的列
`--num-mappers`	指定并行导入的Mapper数量
`--null-string`	指定数据库中表示NULL值的字符串
`--null-non-string`	指定数据库中表示NULL值的非字符串值

4.2 导出数据命令选项

参数	描述
`--connect`	指定数据库连接URL
`--username`	指定数据库用户名
`--password`	指定数据库密码
`--table`	指定要导出的数据库表名
`--export-dir`	指定导出数据的源目录
`--columns`	指定要导出的列
`--input-fields-terminated-by`	指定输入字段的分隔符
`--input-lines-terminated-by`	指定输入行的分隔符
`--input-null-string`	指定输入中表示NULL值的字符串
`--input-null-non-string`	指定输入中表示NULL值的非字符串值

4.3 通用命令选项

参数	描述
`--verbose`	显示详细的调试信息
`--compress`	启用压缩
`--direct`	使用直接模式进行导入/导出
`--as-avrodatafile`	将数据导入/导出为Avro文件
`--as-parquetfile`	将数据导入/导出为Parquet文件
`--as-textfile`	将数据导入/导出为文本文件
`--delete-target-dir`	在导入之前删除目标目录
`--fields-terminated-by`	指定字段的分隔符
`--lines-terminated-by`	指定行的分隔符
`--null-string`	指定输出中表示NULL值的字符串
`--null-non-string`	指定输出中表示NULL值的非字符串值

这只是Sqoop的一些常见命令选项，还有其他更多选项可用于满足特定的需求。你可以通过运行sqoop help命令来获取完整的命令选项列表和详细的帮助信息。

参考文献

Sqoop基础理论与常用命令详解（超详细）
Sqoop User Guide (v1.4.7) (apache.org)
大数据视频_Sqoop视频教程_哔哩哔哩_bilibili

2024年10月14日 14点56分
数据采集工具——Sqoop内容学习整理，如有错误，欢迎评论区交流指出。
不积跬步无以至千里！

原文地址：https://blog.csdn.net/The_skye/article/details/142918691

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：R语言详解predict函数
下一篇：决策智能与强化学习：重放比率（replay ratio）

若依框架中spring security的完整认证流程，及其如何使用自定义用户表进行登录认证，学会轻松实现二开，嘎嘎赚块乾
由于后续需要将自定义实体设置给LoginUser，需要定义对应的构造函数，方便后面验证成功后设置值，然后全文调用因为我们是用自己的业务类判断的嘛，因此我们要找到调用loadUserByUsername
阅读更多2024-10-17
【C++】STL简介
C++ 标准模板库（STL，Standard Template Library）是 C++ 的核心组成部分，提供了一套通用的模板类和算法，可以高效地管理数据和执行复杂操作。STL 使 C++ 编程变得
阅读更多2024-10-17
Allegro 小技巧
当你想放弃从上次打开到现在你对设计进行的操作并重新打开时使用，比如你在一个设计版本上做各种尝试，直到你满意为止时，在你做的各种尝试时它会很有效率，常规情况下你需要关闭设计并重新打开来进行各种尝试，现在
阅读更多2024-10-17
MinGW Makefiles
MinGW Makefiles
阅读更多2024-10-17
python取字典的任意一项的value
如果你有一个对象，并且字段是对象的属性，你可以使用。这三种方式可以根据你的需求选择合适的用法。如果你想随机选择一个字段的值，可以使用。如果你有一个字典，可以使用。
阅读更多2024-10-17
Matlab|用于平抑可再生能源功率波动的储能电站建模及评价
程序参考文献《用于平抑可再生能源功率波动的储能电站建模及评价》，针对风电和光伏分布式能源出力波动的问题，提出采用储能平抑功率波动模型，通过储能电站充放电控制来优化整体功率波动，以相邻时段功率差的平方和
阅读更多2024-10-17
【进阶OpenCV】（18）-- Dlib库 --人脸关键点定位
本篇介绍了如何通过Dlib库自带的预测器，来进行人脸的关键点定位，并将它显示出来。得到关键点定位后，我们就可以通过点位的距离变换，简单的判断人脸表情变换情况。
阅读更多2024-10-17
[每日一练]游戏玩法分析(为什么使用子查询而不是having字段，为什么必须使用联合查询)
因为根据having字段的性质，它的作用是筛选分组聚合后的数据。而所谓的分组聚合后的数据就是select字段里的数据，having要想筛选它们，字段里就必须要包括这些数据，再进行条件筛选。这上面这段代
阅读更多2024-10-17
Linux运维篇-Centos7出现Internal error XFS_WANT_CORRUPTED_GOTO at line ……错误
run/initfamfs/rdsosreport.txt是启动过程文件，里面详细记录了启动过程中的所有信息，可以从文件中进行查找。开始的思路为挂镜像进入救援模式启动，想查看文件系统是否可读，进入救援
阅读更多2024-10-17
【fisco学习记录3】扩容新节点以及配置控制台
扩容新节点需要先搭建好控制台，因此第一步先配置控制台。环境Windows 11安装wsl。
阅读更多2024-10-17

【数据采集工具】Sqoop从入门到面试学习总结

【数据采集工具】Sqoop从入门到面试学习总结

一、什么是Sqoop？

1.1 Sqoop简介

1.2 Sqoop的主要特点

1.3 Sqoop的基本命令格式

二、Sqoop的简单使用案例

2.1 导入数据

2.1.1 RDBMS 到 HDFS

2.1.2 RDBMS 到 Hive

2.1.3 RDBMS 到 Hbase

2.2 导出数据

2.2.1 Hive/HDFS到RDBMS

三、脚本打包

四、Sqoop一些常用命令及参数

4.1 导入数据命令选项

4.2 导出数据命令选项

4.3 通用命令选项

参考文献

相关文章