DataX 的安装配置和使用（详细版）

🕗 发布于 2024-11-05 12:50 服务器 linux 运维 大数据

1，上传解压

1，开始上传安装包到你虚拟机上放置安装包的文件夹

2，开始解压 ,配置环境变量

1、上传 /opt/modules
2、解压 tar -zxvf datax.tar.gz -C /opt/installs
3、修改 vi /etc/profile
配置环境变量：
export DATAX_HOME=/opt/installs/datax
export PATH=$PATH:$DATAX_HOME/bin

4，刷新环境变量

source /etc/profile

datax 就安装好了

2，我们开始使用一下

1，MySQLReader 案例

datax其实就是写json的

1，切换盘符到你的datax cd /opt/installs/datax/job

2，创建json文件开始写json

3，我这个文件名字是mysql2stream.json

2，json的编写

"username": "root",
"password": "123456",

这个是你连接数据库时的账户和密码

"writer": {
"name": "streamwriter",
"parameter": {
"print": true,
"encoding": "UTF-8"

这段的意思是写到控制台上

{
"job": {
"setting": {
"speed": {
"channel":1
}
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "root",
"password": "123456",
"connection": [
{
"querySql": [
"select * from emp where empno < 7788;" 编写的sql 语句
],
"jdbcUrl": [
"jdbc:mysql://bigdata01:3306/sqoop" 这个是连接你的数据库 sqoop是数据库的名子
]
}
]
}
},
"writer": {
"name": "streamwriter",
"parameter": {
"print": true,
"encoding": "UTF-8"
}
}
}
]
}
}

3，运行一下

datax.py mysql2stream.json

3，datax的高级部分

1、数据从hive导出到mysql

1，先在hive上查看准备导出的表有无数据

select * from par3

2,在mysql 创建一个用于接收数据的表

目标：从par3中导出数据到mysql的user表。

3，开始写json 还是在你的datax/job 文件夹里创建json文件

{
"job": {
"setting": {
"speed": {
"channel": 3
}
},
"content": [
{
"reader": {
"name": "hdfsreader",
"parameter": {
"path": "/user/hive/warehouse/yhdb.db/par3/*",
"defaultFS": "hdfs://bigdata01:9820",
"column": [
{
"index": 0,
"type": "long"
},
{
"index": 1,
"type": "long"
}
],
"fileType": "text",
"encoding": "UTF-8",
"fieldDelimiter": ","
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"writeMode": "insert",
"username": "root",
"password": "123456",
"column": [
"id",
"age"
],
"connection": [
{
"jdbcUrl": "jdbc:mysql://bigdata01:3306/sqoop",
"table": [
"par3"
]
}
]
}
}
}
]
}
}

在咱们的datax中没hiveReader，但是有hdfsreader,所以本质上就是hdfs导出到mysql

"path": "/user/hive/warehouse/yhdb.db/par3/*", 这个是你hdfs文件的路径

原文地址：https://blog.csdn.net/GDDGHS_/article/details/143374537

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：第一章微服务入门
下一篇：考研要求掌握的C语言程度（插入排序）

MongoDB Roadmap : MongoDB Basics
SQL (Structured Query Language) databases are also called relational databases.NoSQL databases: non-
阅读更多2024-11-05
R使用ggplot实现基础数据可视化
0. 在开始之前，我们需要设置工作目录并导入数据集 liver.df 作为案例示范，如果需要liver.df可以评论。1. 安装ggplot包。ggplot2 是由 Hadley Wickham 创建
阅读更多2024-11-05
Spring学习笔记(一)
史上最全的Spring学习笔记，手把手教你学会Spring。SpringWork系统结构、程序的耦合以及解耦合、工厂方式的解耦合、IOC机制的讲解、IOC入门案例、IOC配置文件的详细介绍、手动实现自
阅读更多2024-11-05
大模型推理加速——ALISA
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV CachingISCA’24Algorithm and
阅读更多2024-11-05
【jvm】如何设置新生代和老年代的比例
例如，-XX:SurvivorRatio=4表示Eden区与Survivor区的比例为4:1:1（因为有两个Survivor区，所以实际比例是8:2:2，但通常简化为8:1:1来表示）。4.设置方法：
阅读更多2024-11-05
FBX福币交易所A股三大指数小幅低开稀土永磁板块回调
东吴证券分析称,伴随着短线情绪退潮,11月风格极有可能切换,或有两种情形:一是风格跷跷板轮动,顺周期板块迎来较10月更明显的超额收益机会;二是风格更加均衡,顺周期和科技成长/小市值风格共存。财信证券表
阅读更多2024-11-05
JVM结构图
JVM结构图，简单明了！！！
阅读更多2024-11-05
CSS--综合练习
我们学习了CSS的大部分内容，现在用我们所学的CSS知识来写一个静态网页吧！
阅读更多2024-11-05
微信小程序的上拉刷新与下拉刷新
(string) 设置自定义下拉刷新默认样式，支持设置 black | white | none， none 表示不使用默认样式。(boolean) 设置当前下拉刷新状态，true 表示下拉刷新已经被
阅读更多2024-11-05
Istio基本概念及部署
istio1.20.0的部署及基本使用
阅读更多2024-11-05

DataX 的安装配置和使用 （详细版）