使用etl工具kettle的日常踩坑梳理之二、从Hadoop中导出数据

🕗 发布于 2024-11-14 21:18 etl hadoop 数据仓库

想操作MySQL等关系型数据库的可以访问我上一篇文章，本章主要介绍操作Hadoop等大数据组件。

根据2024年11月份测试了kettle工具在9.3及以上版本已经没有内置连接大数据(如Hadoop)组件了。

建议安装9.2及以下的，我这里送上8.3.0版本的请用百度网盘下载
链接：https://pan.baidu.com/s/1INRChuepogd332b81fC32w?pwd=4ll9
提取码：4ll9

然后还需要注意的是Java版本不能过高，要不然也会出现异常，我使用Java8没问题。

1、如果是在win系统中使用就点击.bat文件，然后如果是在linux中就运行.sh文件

2、进入后应该看到这个页面，然后点击文件->新建->转换

3、我现在想把hive中某一张表的数据导出来，就先点击输入下面的表输入，输出就是用什么格式的文件存储，比如我想用csv存储就选择这个文本文件输出。（其实就是数据从哪里来就选择输入，到哪里去就输出）

4、点击新建，配置好数据库连接信息，如果你配置了无须用正确的用户名和密码访问就还需要进入选项配置auth=noSasl

可以测试一下连接是不是正常可以使用，别忘记保存哟

5、点击这个获取sql查询语句选择你需要导出的是哪张表的数据，字段可以自定义。然后保存

6、然后点击导出的csv进行简单的配置，比如保存的目录文件名称,设置分隔符，编码格式等(点击浏览可以设置)。

7、然后按住shift键别动，用鼠标把两个拉起来，然后点击那个三角形启动，然后会弹出导出的过程

显示转换完成就可以去你刚才保存的目录下看了，导入的流程也是一样，只不过输入输出顺序填好

原文地址：https://blog.csdn.net/ymdaa555/article/details/143774422

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：git 提交报错 Error updating changes: bad signature 0x00000000index file corrupt
下一篇：【开源免费】基于SpringBoot+Vue.JS高校学科竞赛平台（JAVA毕业设计）

@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
阅读更多2024-11-16
25浙江省考-28天学行测-Day5 & Day6-判断推理（中）
1、另有他因2、因果倒置3、否定此因4、根本原因5、三圈质疑1、排除他因2、四圈支持1、无论据有结论2、有论据有结论3、质疑论证过程4、严谨逻辑关系5、比例类论证1、解释说明2、增加论据3、断点
阅读更多2024-11-16
Rust 入门指南（零）：安装及 Cargo 管理器
系列第 0 篇，简单介绍了 Rust 的基本安装和配置流程，以及如何通过 Cargo 创建和管理项目。
阅读更多2024-11-16
Centos使用人大金仓ksql
Centos使用人大金仓ksql
阅读更多2024-11-16
多模态大模型简介
多模态大模型是机器学习领域的一个新兴趋势，它结合了文本、图像、音频等多种数据模态，以实现更全面和深入的信息理解和处理。这种模型能够处理跨模态任务，如图像标注、视觉问答、文本到图像的生成等，是人工智能领
阅读更多2024-11-16
javaScript交互补充2（动画函数封装）
如果多个元素都使用这个动画函数，每次都要var 声明定时器，我们可以给不同元素使用不同的定时器（自己用自己的定时器）核心原理：利用js是一门动态语言，可以很方便的给当前对象添加属性。缓动动画就是让元素
阅读更多2024-11-16
【鸿蒙开发】第十五章 H5与端侧交互、Cookies以及Web调试
Web组件支持在应用拦截到页面请求后自定义响应请求能力。开发者通过接口来实现自定义资源请求响应。自定义请求能力可以用于开发者自定义Web页面响应、自定义文件资源响应等场景。Web网页上发起资源加载请求
阅读更多2024-11-16
javaScript交互补充（元素的三大系列）
使用client系列的相关属性来获取元素可视区的相关信息，可以动态的得到该元素的边框大小，元素大小等。返回自身包括padding，内容区宽度，不含边框，返回数值不带单位。返回自身包括padding，内
阅读更多2024-11-16
django 过滤器的执行
默认情况下，会执行，特别是如果在中配置了它，或者没有禁用它。禁用过滤器：可以通过在APIView中设置来禁用过滤器，避免执行。手动调用过滤器：如果需要，你可以在视图中手动调用来过滤查询集。自定义过滤器
阅读更多2024-11-16
在Ubuntu 24.04 LTS上安装飞桨PaddleX
首先，请运行“ubuntu-drivers devices”命令列出当前可用的硬件设备，确保Ubuntu 24.04.1 LTS已发现安装在桌面计算机中的英伟达显卡，如下图所示。是基于飞桨框架构建的一
阅读更多2024-11-16

使用etl工具kettle的日常踩坑梳理之二、从Hadoop中导出数据

相关文章