从神策平台同步数据到hdfs示例

🕗 发布于 2025-01-21 08:08 hdfs hadoop 大数据

从神策平台同步数据到hdfs示例:

可参考以下官方文档:
https://manual.sensorsdata.cn/sa/docs/tech_export_jdbc/v0204

1. 测试环境地址
jdbc:hive2://11.22.33.44:21050/rawdata;auth=noSasl
--测试连通性
ping 11.22.33.44
telnet 11.22.33.44 21050

2. jdbc方式连接
beeline -u "jdbc:hive2://11.22.33.44:21050/rawdata;auth=noSasl" 
beeline -u "jdbc:hive2://11.22.33.44:21050/rawdata;auth=noSasl" -e "select 1"

语法:
--查询数据库
show databases;
use rawdata;
--查询数据表
show tables;
--查看表结构
desc events /*SA(ylfx)*/;
--查询表数据量
SELECT 
count(1)
FROM rawdata.events 
/*SA(ylfx)*/;
1798483
--查询样例数据 
SELECT 
*
FROM rawdata.events limit 3
/*SA(ylfx)*/;

--数据导出到神策所在的hdfs集群(文件默认分隔符是'\001') (导出数据为0)
create table test0117 STORED AS textfile LOCATION '/tmp' as
/*SA_BEGIN*/
select event,user_id,day,event_id,month_id,week_id,distinct_id,date,time
FROM rawdata.events
where date >= '2025-01-15 00:00:00'
/*SA_END*/;

3. impala-shell 方式连接
impala-shell -i 11.22.33.44

impala-shell -i 11.22.33.44 -q "select 1"

--查询表数据量
SELECT 
count(1) as cnt
FROM rawdata.events
where date >= '2025-01-15 00:00:00'
/*SA(ylfx)*/;
+-------+
| cnt   |
+-------+
| 23976 |
+-------+
Fetched 1 row(s) in 0.42s
--数据导出到神策所在的hdfs集群(文件默认分隔符是'\001')
create table test_0116 STORED AS textfile LOCATION '/tmp' as 
/*SA_BEGIN*/
select event,user_id,day,event_id,month_id,week_id,distinct_id,date,time
FROM rawdata.events
where date >= '2025-01-15 00:00:00'
/*SA_END*/;

+-----------------------+
| summary               |
+-----------------------+
| Inserted 25346 row(s) |
+-----------------------+
Fetched 1 row(s) in 0.62s

--使用hadoop distcp把数据同步到指定hdfs集群
hadoop distcp source_path dist_path

原文地址：https://blog.csdn.net/weixin_45547818/article/details/145268916

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【初阶数据结构】探索数据的多米诺链：单链表
下一篇：嵌入式Linux驱动开发之pinctrl和gpio子系统

[操作系统] 进程的调度
CPU内有多个寄存器，每个寄存器作用都不同寄存器就是CPU内部的临时空间，存放正在运行的进程的临时数据寄存器不包含寄存器内的数据，寄存器只是临时空间！比如说当计算1 + 1时，两个1单独存放在不同的寄
阅读更多2025-01-21
MS81878运算放大器可P2P兼容OPA188/ADA4077-1
其工作电压可以在单电源下从4V到36V或者双电源下从±2V到±18V。可兼容OPA188/OPA2188/OPA4188/ADA4077-1/ADA4077-2/ADA4077-4。该器件具有宽工作电
阅读更多2025-01-21
Trimble三维激光扫描-地下公共设施维护的新途径【沪敖3D】
通过使用三维激光扫描技术，改变了地下公共设施未来维护和维修工作的方式，显著提高了效率！
阅读更多2025-01-21
LeetCode hot 力扣热题100 排序链表
对拆分后的两部分链表分别递归调用 sortList，直到链表被拆分为单个节点（此时链表自然是有序的）。• 最终 [2 -> 4] 和 [1 -> 3] 合并为 [1 -> 2 -&g
阅读更多2025-01-21
第一讲方程组的几何解释——以列向量线性组合的角度看方程组
第一讲方程组的几何解释——以列向量线性组合的角度看方程组
阅读更多2025-01-21
AI刷题-病毒在封闭空间中的传播时间
以后我想试着一篇博客就写一道题解，尽可能的地把题解思路讲清楚（ps：因为我昨天看之前写的题解的时候有点云里雾里，这就违背我写题解的初衷了）
阅读更多2025-01-21
网络编程 | UDP组播通信
组播是介于单播与广播之间，在一个局域网内，将某些主机添加到组中，并设置一个组地址。将数据发送到组播地址时，加入到该组的所有主机都能接收到数据。组播是主机间一对多的通信模式，组播是一种允许一个或多个组
阅读更多2025-01-21
创建第一个GUI程序
Python 是一种非常强大的编程语言。它自带了内置的 tkinter 模块。我们只需几行代码（准确来说是四行）就可以构建出我们的第一个 Python 图形用户界面（GUI）。
阅读更多2025-01-21
PT8M2302 触控 A/D 型 8-Bit MCU
PT8M2302 是一款可多次编程（MTP）A/D 型 8 位 MCU，其包括 2K*16bit MTP ROM、256*8bit SRAM、ADC、PWM、Touch 等功能，具有高性能精简指令集、
阅读更多2025-01-21
记一次虚机上传过慢问题排查
最近线上虚机有个特殊的用户反馈，用户反馈虚机从A服务器下载文件特别慢，于是scpA服务器数据到本地client，发现只有几十K的流量。当时第一反应怀疑是虚机负载压力比较大，但是查看虚机IO以及负载都很
阅读更多2025-01-21

从神策平台同步数据到hdfs示例

相关文章