自学内容网 自学内容网

Sqoop 指令语法手册


help指令

sqoop help +下面的Sqoop命令(可选)
Sqoop命令描述
codegen生成与数据库记录交互的代码
create-hive-table将表定义导入到Hive中
eval评估SQL语句并显示结果
export将HDFS目录导出到数据库表中
help列出可用命令
import从数据库导入表到HDFS
import-all-tables从数据库导入所有表到HDFS
import-mainframe从主机服务器导入数据集到HDFS
job与保存的作业一起工作
list-databases列出服务器上的可用数据库
list-tables列出数据库中的可用表
merge合并增量导入的结果
metastore运行独立的Sqoop元存储
version显示版本信息

list-databases

参数描述

参数描述
--connect <jdbc-uri>指定JDBC连接字符串
--connection-manager <class-name>指定连接管理器类名
--connection-param-file <properties-file>指定连接参数文件
--driver <class-name>手动指定要使用的JDBC驱动类
--hadoop-home <hdir>覆盖$HADOOP_MAPRED_HOME_ARG
--hadoop-mapred-home <dir>覆盖$HADOOP_MAPRED_HOME_ARG
--help打印使用说明
--metadata-transaction-isolation-level <isolationlevel>定义元数据查询的事务隔离级别
--oracle-escaping-disabled <boolean>禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
--password <password>设置认证密码
--password-alias <password-alias>凭据提供者密码别名
--password-file <password-file>设置认证密码文件路径
--relaxed-isolation使用读取未提交隔离级别进行导入
--skip-dist-cache跳过将jars复制到分布式缓存
--temporary-rootdir <rootdir>定义导入的临时根目录
--throw-on-error在作业发生错误时重新抛出RuntimeException
--username <username>设置认证用户名
--verbose在工作时打印更多信息
-conf <configuration file>指定应用程序配置文件(通用Hadoop命令行参数)
-D <property=value>为给定属性定义一个值(通用Hadoop命令行参数)
-fs <file:///hdfs://namenode:port>指定要使用的默认文件系统URL(通用Hadoop命令行参数)
-jt <localresourcemanager:port>指定ResourceManager(通用Hadoop命令行参数)
-files <file1,...>指定要复制到MapReduce集群的逗号分隔文件列表(通用参数)
-libjars <jar1,...>指定要包含在类路径中的逗号分隔jar文件列表(通用参数)
-archives <archive1,...>指定要在计算机上解压缩的逗号分隔存档列表(通用参数)

其中有些参数是通用的Hadoop命令行参数,它们必须位于任何工具特定参数之前。

示例

sqoop list-databases --connect jdbc:mysql://hadoop100:3306/ --username root --password password

codegen

参数描述

参数分类参数名称描述
Common arguments--connect <jdbc-uri>指定JDBC连接字符串
--connection-manager <class-name>指定连接管理器类名
--connection-param-file <properties-file>指定连接参数文件
--driver <class-name>手动指定要使用的JDBC驱动类
--hadoop-home <hdir>覆盖$HADOOP_MAPRED_HOME_ARG环境变量,指定Hadoop安装目录
--hadoop-mapred-home <dir>覆盖$HADOOP_MAPRED_HOME_ARG环境变量,指定Hadoop MapReduce安装目录
--help打印使用说明
--metadata-transaction-isolation-level <isolationlevel>定义元数据查询的事务隔离级别
--oracle-escaping-disabled <boolean>禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
--password <password>设置认证密码
--password-alias <password-alias>凭据提供者密码别名
--password-file <password-file>设置认证密码文件路径
--relaxed-isolation为导入使用读未提交隔离
--skip-dist-cache跳过将jar复制到分布式缓存
--temporary-rootdir <rootdir>定义导入的临时根目录
--throw-on-error在作业发生错误时重新抛出RuntimeException
--username <username>设置认证用户名
--verbose工作时打印更多信息
Code generation arguments--bindir <dir>编译对象的输出目录
--class-name <name>设置生成的类名,覆盖–package-name。与–jar-file结合使用时,设置输入类
-e,--query <statement>生成代码的SQL语句
--escape-mapping-column-names <boolean>禁用列名中的特殊字符转义
--input-null-non-string <null-str>输入空值(非字符串)的表示
--input-null-string <null-str>输入空字符串的表示
--map-column-java <arg>覆盖特定列到Java类型的映射
--null-non-string <null-str>空值(非字符串)的表示
--null-string <null-str>空字符串的表示
--outdir <dir>生成代码的输出目录
--package-name <name>将自动生成的类放入此包中
--table <table-name>要生成代码的表
Output line formatting arguments--enclosed-by <char>设置必需的字段包围字符
--escaped-by <char>设置转义字符
--fields-terminated-by <char>设置字段分隔符字符
--lines-terminated-by <char>设置行终止字符
--mysql-delimiters使用MySQL的默认分隔符集
--optionally-enclosed-by <char>设置字段包围字符(可选)
Input parsing arguments--input-enclosed-by <char>设置输入字段的包围字符
--input-escaped-by <char>设置输入转义字符
--input-fields-terminated-by <char>设置输入字段分隔符
--input-lines-terminated-by <char>设置输入行终止符
--input-optionally-enclosed-by <char>设置输入字段的包围字符(可选)
Hive arguments--create-hive-table如果目标Hive表存在,则失败
--external-table-dir <hdfs path>设置外部表在HDFS中的位置
--hive-database <database-name>设置导入到Hive时使用的数据库名
--hive-delims-replacement <arg>替换从导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r)为用户定义的字符串
--hive-drop-import-delims从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r)
--hive-home <dir>覆盖$HIVE_HOME环境变量
--hive-import将表导入到Hive中(如果未设置,则使用Hive的默认分隔符)
--hive-overwrite覆盖Hive表中的现有数据
--hive-partition-key <partition-key>设置导入到Hive时使用的分区键
--hive-partition-value <partition-value>设置导入到Hive时使用的分区值
--hive-table <table-name>设置导入到Hive时使用的表名
--map-column-hive <arg>覆盖特定列到Hive类型的映射
HCatalog arguments--hcatalog-database <arg>HCatalog数据库名
--hcatalog-home <hdir>覆盖$HCAT_HOME环境变量,指定HCatalog安装目录
--hcatalog-partition-keys <partition-key>设置导入到Hive时使用的分区键
--hcatalog-partition-values <partition-value>设置导入到Hive时使用的分区值
--hcatalog-table <arg>HCatalog表名
Generic Hadoop command-line arguments-conf <configuration file>指定应用程序配置文件
-D <property=value>为给定属性定义一个值
`-fs <file:///hdfs://namenode:port>`
`-jt <localresourcemanager:port>`
-files <file1,...>指定要复制到MapReduce集群的逗号分隔的文件列表
-libjars <jar1,...>指定要包含在类路径中的逗号分隔的jar文件列表
-archives <archive1,...>指定要在计算机器上解压缩的逗号分隔的存档列表

Sqoop create-hive-table

参数描述

参数类别参数名称参数描述
Common arguments–connect Specify JDBC connect string
–connection-manager Specify connection manager class name
–connection-param-file Specify connection parameters file
–driver Manually specify JDBC driver class to use
–hadoop-home Override $HADOOP_MAPRED_HOME_ARG
–hadoop-mapred-home Override $HADOOP_MAPRED_HOME_ARG
–helpPrint usage instructions
–metadata-transaction-isolation-level Defines the transaction isolation level for metadata queries
–oracle-escaping-disabled Disable the escaping mechanism of the Oracle/OraOop connection managers
-PRead password from console
–password Set authentication password
–password-alias Credential provider password alias
–password-file Set authentication password file path
–relaxed-isolationUse read-uncommitted isolation for imports
–skip-dist-cacheSkip copying jars to distributed cache
–temporary-rootdir Defines the temporary root directory for the import
–throw-on-errorRethrow a RuntimeException on error occurred during the job
–username Set authentication username
–verbosePrint more information while working
Hive arguments–create-hive-tableFail if the target hive table exists
–external-table-dir Sets where the external table is in HDFS
–hive-database Sets the database name to use when importing to hive
–hive-delims-replacement Replace Hive record \0x01 and row delimiters (\n\r) from imported string fields with user-defined string
–hive-drop-import-delimsDrop Hive record \0x01 and row delimiters (\n\r) from imported string fields
–hive-home Override $HIVE_HOME
–hive-overwriteOverwrite existing data in the Hive table
–hive-partition-key Sets the partition key to use when importing to hive
–hive-partition-value Sets the partition value to use when importing to hive
–hive-table Sets the table name to use when importing to hive
–map-column-hive Override mapping for specific column to hive types
–table The db table to read the definition from
Output line formatting arguments–enclosed-by Sets a required field enclosing character
–escaped-by Sets the escape character
–fields-terminated-by Sets the field separator character
–lines-terminated-by Sets the end-of-line character
–mysql-delimitersUses MySQL’s default delimiter set
–optionally-enclosed-by Sets a field enclosing character
Generic Hadoop command-line arguments-conf specify an application configuration file
-D <property=value>define a value for a given property
-fs <file:///hdfs://namenode:port>
-jt <localresourcemanager:port>
-files <file1,…>specify a comma-separated list of files to be copied to the map reduce cluster
-libjars <jar1,…>specify a comma-separated list of jar files to be included in the classpath
-archives <archive1,…>specify a comma-separated list of archives to be unarchived on the compute machines

eval

参数描述

类别参数描述
通用参数–connect 指定JDBC连接字符串
–connection-manager 指定连接管理器类名
–connection-param-file 指定连接参数文件
–driver 手动指定JDBC驱动类
–hadoop-home 覆盖$HADOOP_MAPRED_HOME_ARG
–hadoop-mapred-home 覆盖$HADOOP_MAPRED_HOME_ARG
–help打印使用说明
–metadata-transaction-isolation-level 定义元数据查询的事务隔离级别
–oracle-escaping-disabled 禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
–password 设置认证密码
–password-alias 凭据提供者密码别名
–password-file 设置认证密码文件路径
–relaxed-isolation为导入使用读未提交隔离
–skip-dist-cache跳过将jar复制到分布式缓存
–temporary-rootdir 定义导入的临时根目录
–throw-on-error在作业发生错误时重新抛出RuntimeException
–username 设置认证用户名
–verbose工作时打印更多信息
SQL评估参数-e,–query 在SQL中执行’statement’并退出
Hadoop通用命令行参数-conf 指定应用程序配置文件
-D <property=value>为给定属性定义值
-fs <file:///hdfs://namenode:port>
-jt <localresourcemanager:port>
-files <file1,…>指定要复制到MapReduce集群的逗号分隔的文件列表
-libjars <jar1,…>指定要包含在类路径中的逗号分隔的jar文件列表
-archives <archive1,…>指定要在计算机上解压缩的逗号分隔的存档列表

Export

参数描述

参数分类参数名称描述
Common arguments–connect 指定JDBC连接字符串
–connection-manager 指定连接管理器类名
–connection-param-file 指定连接参数文件
–driver 手动指定要使用的JDBC驱动类
–hadoop-home 覆盖$HADOOP_MAPRED_HOME_ARG
–hadoop-mapred-home 覆盖$HADOOP_MAPRED_HOME_ARG
–help打印使用说明
–metadata-transaction-isolation-level 定义元数据查询的事务隔离级别
–oracle-escaping-disabled 禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
–password 设置认证密码
–password-alias 凭据提供者密码别名
–password-file 设置认证密码文件路径
–relaxed-isolation使用读未提交隔离级别进行导入
–skip-dist-cache跳过将jars复制到分布式缓存
–temporary-rootdir 定义导入的临时根目录
–throw-on-error在作业发生错误时重新抛出RuntimeException
–username 设置认证用户名
–verbose工作时打印更多信息
Export control arguments–batch指示以批处理模式执行底层语句
–call 使用此存储过程填充表(每行一个调用)
–clear-staging-table指示可以删除暂存表中的任何数据
–columns <col,col,col…>要导出到表的列
–direct使用直接导出快速路径
–export-dir HDFS源路径,用于导出
-m,–num-mappers 使用’n’个map任务并行导出
–mapreduce-job-name 为生成的mapreduce作业设置名称
–staging-table 中间暂存表
–table 要填充的表
–update-key 按指定键列更新记录
–update-mode 指定当数据库中发现具有不匹配键的新行时如何执行更新
–validate使用配置的验证器验证复制
–validation-failurehandler 验证失败处理程序的完全限定类名
–validation-threshold 验证阈值的完全限定类名
–validator 验证器的完全限定类名
Input parsing arguments–input-enclosed-by 设置必需的字段包围字符
–input-escaped-by 设置输入转义字符
–input-fields-terminated-by 设置输入字段分隔符
–input-lines-terminated-by 设置输入行结束字符
–input-optionally-enclosed-by 设置字段包围字符
Output line formatting arguments–enclosed-by 设置必需的字段包围字符
–escaped-by 设置转义字符
–fields-terminated-by 设置字段分隔符字符
–lines-terminated-by 设置行结束字符
–mysql-delimiters使用MySQL的默认分隔符集
–optionally-enclosed-by 设置字段包围字符
Code generation arguments–bindir 编译对象的输出目录
–class-name 设置生成的类名,这会覆盖–package-name
–escape-mapping-column-names 禁用列名中特殊字符的转义
–input-null-non-string 输入空值非字符串表示
–input-null-string 输入空字符串表示
–jar-file 禁用代码生成;使用指定的jar
–map-column-java 为特定列到Java类型的映射设置覆盖
–null-non-string 空值非字符串表示
–null-string 空字符串表示
–outdir 生成代码的输出目录
–package-name 将自动生成的类放入此包中
HCatalog arguments–hcatalog-database HCatalog数据库名称
–hcatalog-home 覆盖$HCAT_HOME
–hcatalog-partition-keys 设置导入到Hive时要使用的分区键
–hcatalog-partition-values 设置导入到Hive时要使用的分区值
–hcatalog-table HCatalog表名
–hive-home 覆盖$HIVE_HOME
–hive-partition-key 设置导入到Hive时要使用的分区键
–hive-partition-value 设置导入到Hive时要使用的分区值
–map-column-hive 为特定列到Hive类型的映射设置覆盖
Generic Hadoop command-line arguments-conf 指定应用程序配置文件
-D <property=value>为给定属性定义值
-fs <file:///hdfs://namenode:port>指定要使用的默认文件系统URL
-jt localresourcemanager:port指定ResourceManager
-files <file1,…>指定要复制到mapreduce集群的文件列表
-libjars <jar1,…>指定要包含在类路径中的jar文件列表
-archives <archive1,…>指定要在计算机上解归档的归档文件列表

import

参数描述

参数分类参数名称描述
Common arguments–connect 指定JDBC连接字符串
–connection-manager 指定连接管理器类名
–connection-param-file 指定连接参数文件
–driver 手动指定JDBC驱动类
–hadoop-home 覆盖$HADOOP_MAPRED_HOME_ARG
–hadoop-mapred-home 覆盖$HADOOP_MAPRED_HOME_ARG
–help打印使用说明
–metadata-transaction-isolation-level 定义元数据查询的事务隔离级别
–oracle-escaping-disabled 禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
–password 设置认证密码
–password-alias 凭据提供者密码别名
–password-file 设置认证密码文件路径
–relaxed-isolation使用读未提交隔离级别进行导入
–skip-dist-cache跳过将jar复制到分布式缓存
–temporary-rootdir 定义导入的临时根目录
–throw-on-error在作业发生错误时重新抛出RuntimeException
–username 设置认证用户名
–verbose工作时打印更多信息
Import control arguments–append以追加模式导入数据
–as-avrodatafile导入数据到Avro数据文件
–as-parquetfile导入数据到Parquet文件
–as-sequencefile导入数据到SequenceFile
–as-textfile以纯文本形式导入数据(默认)
–autoreset-to-one-mapper如果没有分割键,则将映射器数量重置为一个
–boundary-query 设置用于检索主键最大值和最小值的边界查询
–columns <col,col,col…>从表中导入的列
–compression-codec 导入时使用的压缩编解码器
–delete-target-dir以删除模式导入数据
–direct使用直接导入快速路径
–direct-split-size 在直接导入模式下,每’n’字节拆分输入流
-e,–query 导入SQL语句的结果
–fetch-size 当需要更多行时,从数据库中获取’n’行
–inline-lob-limit 设置内联LOB的最大大小
-m,–num-mappers 使用’n’个映射任务并行导入
–mapreduce-job-name 为生成的mapreduce作业设置名称
–merge-key 用于连接结果的键列
–split-by 用于拆分工作单元的表列
–split-limit 对于日期/时间/时间戳和整数类型的拆分列,每个拆分的行的上限。对于日期或时间戳字段,它以秒为单位计算。split-limit应大于0
–table 要读取的表
–target-dir HDFS普通表目标目录
–validate使用配置的验证器验证副本
–validation-failurehandler 验证失败处理程序的完全限定类名
–validation-threshold 验证阈值的完全限定类名
–validator 验证器的完全限定类名
–warehouse-dir 表目标目录的HDFS父目录
–where 导入期间使用的WHERE子句
-z,–compress启用压缩
Incremental import arguments–check-column 要检查增量更改的源列
–incremental 定义类型为’append’或’lastmodified’的增量导入
–last-value 增量检查列中最后导入的值
Output line formatting arguments–enclosed-by 设置必需的字段包围字符
–escaped-by 设置转义字符
–fields-terminated-by 设置字段分隔符字符
–lines-terminated-by 设置行结束字符
–mysql-delimiters使用MySQL的默认分隔符集
–optionally-enclosed-by 设置字段包围字符
Input parsing arguments–input-enclosed-by 设置必需的字段封闭器
–input-escaped-by 设置输入转义字符
–input-fields-terminated-by 设置输入字段分隔符
–input-lines-terminated-by 设置输入行结束符
–input-optionally-enclosed-by 设置字段封闭字符
Hive arguments–create-hive-table如果目标hive表存在,则失败
–external-table-dir 设置外部表在HDFS中的位置
–hive-database 导入到hive时使用的数据库名称
–hive-delims-replacement 用用户定义的字符串替换从导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r)
–hive-drop-import-delims从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r)
–hive-home 覆盖$HIVE_HOME
–hive-import导入表到Hive
–hive-overwrite覆盖Hive表中现有的数据
–hive-partition-key 导入到hive时使用的分区键
–hive-partition-value 导入到hive时使用的分区值
–hive-table 导入到hive时使用的表名
–map-column-hive 覆盖特定列到hive类型的映射
HBase arguments–column-family 设置导入的目标列族
–hbase-bulkload启用HBase批量加载
–hbase-create-table如果指定,则创建缺失的HBase表
–hbase-row-key
指定哪个输入列用作行键
–hbase-table
导入到HBase中的
HCatalog arguments–hcatalog-database HCatalog数据库名称
–hcatalog-home 覆盖$HCAT_HOME
–hcatalog-partition-keys 导入到hive时使用的分区键
–hcatalog-partition-values 导入到hive时使用的分区值
–hcatalog-table HCatalog表名
–map-column-hive 覆盖特定列到hive类型的映射
HCatalog import specific options–create-hcatalog-table导入前创建HCatalog
–drop-and-create-hcatalog-table导入前删除并创建HCatalog
–hcatalog-storage-stanza HCatalog表创建的存储语句
Accumulo arguments–accumulo-batch-size 批处理大小(字节)
–accumulo-column-family 设置导入的目标列族
–accumulo-create-table如果指定,则创建缺失的Accumulo表
–accumulo-instance Accumulo实例名称
–accumulo-max-latency 最大写入延迟(毫秒)
–accumulo-password Accumulo密码

import-all-tables

参数描述

Sqoop import-all-tables 命令参数描述
–connect 指定JDBC连接字符串
–connection-manager 指定连接管理器类名
–connection-param-file 指定连接参数文件
–driver 手动指定要使用的JDBC驱动类
–hadoop-home 覆盖$HADOOP_MAPRED_HOME_ARG
–hadoop-mapred-home 覆盖$HADOOP_MAPRED_HOME_ARG
–help打印使用说明
–metadata-transaction-isolation-level 定义元数据查询的事务隔离级别
–oracle-escaping-disabled 禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
–password 设置认证密码
–password-alias 凭据提供者密码别名
–password-file 设置认证密码文件路径
–relaxed-isolation使用读未提交隔离级别进行导入
–skip-dist-cache跳过将jar复制到分布式缓存
–temporary-rootdir 定义导入的临时根目录
–throw-on-error在作业发生错误时重新抛出RuntimeException
–username 设置认证用户名
–verbose工作时打印更多信息
–as-avrodatafile将数据导入为Avro数据文件
–as-parquetfile将数据导入为Parquet文件
–as-sequencefile将数据导入为SequenceFiles
–as-textfile将数据导入为纯文本(默认)
–autoreset-to-one-mapper如果没有可用的拆分键,则将映射器数量重置为一个
–compression-codec 导入时使用的压缩编解码器
–direct使用直接导入快速路径
–direct-split-size 在直接模式下导入时,每’n’字节拆分输入流
–exclude-tables 导入所有表时排除的表
–fetch-size 当需要更多行时,从数据库中获取’n’行数
–inline-lob-limit 设置内联LOB的最大大小
-m,–num-mappers 使用’n’个映射任务并行导入
–mapreduce-job-name 为生成的mapreduce作业设置名称
–warehouse-dir 表目标位置的HDFS父目录
-z,–compress启用压缩
–enclosed-by 设置必需的字段包围字符
–escaped-by 设置转义字符
–fields-terminated-by 设置字段分隔符字符
–lines-terminated-by 设置行尾字符
–mysql-delimiters使用MySQL的默认分隔符集
–optionally-enclosed-by 设置字段包围字符
–input-enclosed-by 设置必需的字段封闭器
–input-escaped-by 设置输入转义字符
–input-fields-terminated-by 设置输入字段分隔符
–input-lines-terminated-by 设置输入行尾字符
–input-optionally-enclosed-by 设置字段封闭字符
–create-hive-table如果目标hive表存在,则失败
–external-table-dir 设置外部表在HDFS中的位置
–hive-database 导入到hive时使用的数据库名称
–hive-delims-replacement 用用户定义的字符串替换导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r)
–hive-drop-import-delims从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r)
–hive-home 覆盖$HIVE_HOME
–hive-import将表导入到Hive中
–hive-overwrite覆盖Hive表中现有的数据
–hive-partition-key 导入到hive时使用的分区键
–hive-partition-value 导入到hive时使用的分区值
–hive-table 导入到hive时使用的表名
–map-column-hive 覆盖特定列到hive类型的映射
–column-family 设置导入的目标列族
–hbase-bulkload启用HBase批量加载
–hbase-create-table如果指定,则创建缺失的HBase表
–hbase-row-key
指定哪个输入列用作行键
–hbase-table
导入到HBase中的
–hcatalog-database HCatalog数据库名称
–hcatalog-home 覆盖$HCAT_HOME
–hcatalog-partition-keys 导入到hive时使用的分区键
–hcatalog-partition-values 导入到hive时使用的分区值
–hcatalog-table HCatalog表名
–create-hcatalog-table导入前创建HCatalog
–drop-and-create-hcatalog-table导入前删除并创建HCatalog
–hcatalog-storage-stanza HCatalog表创建的存储语句
–accumulo-batch-size 批次大小(以字节为单位)
–accumulo-column-family 设置导入的目标列族
–accumulo-create-table如果指定,则创建缺失的Accumulo表
–accumulo-instance Accumulo实例名称
–accumulo-max-latency 最大写入延迟(以毫秒为单位)
–accumulo-password Accumulo密码
–accumulo-row-key
指定哪个输入列用作行键
–accumulo-table
导入到Accumulo中的
–accumulo-user Accumulo用户名
–accumulo-visibility 应用于所有导入行的可见性标记
–accumulo-zookeepers 逗号分隔的zookeeper列表(主机:端口)
–bindir 编译对象的输出目录
–escape-mapping-column-names 禁用列名中的特殊字符转义
–input-null-non-string 输入空值非字符串表示
–input-null-string 输入空字符串表示
–jar-file 禁用代码生成;使用指定的jar
–map-column-java 覆盖特定列到java类型的映射
–null-non-string 空值非字符串表示
–null-string 空字符串表示
–outdir 生成代码的输出目录
–package-name 将自动生成的类放入此包中
-conf 指定应用程序配置文件
-D <property=value>为给定属性定义值
-fs <file:///|hdfs://namenode:port>指定要使用的默认文件系统URL,覆盖配置中的’fs.defaultFS’属性
-jt <local|resourcemanager:port>指定ResourceManager
-files <file1,…>指定要复制到mapreduce集群的逗号分隔的文件列表
-libjars <jar1,…>指定要包含在类路径中的逗号分隔的jar文件列表
-archives <archive1,…>指定要在计算机上解压缩的逗号分隔的存档列表

import-mainframe

参数描述

参数分类参数名称描述
Common arguments–connect 指定JDBC连接字符串
–connection-manager 指定连接管理器类名
–connection-param-file 指定连接参数文件
–driver 手动指定要使用的JDBC驱动类
–hadoop-home 覆盖$HADOOP_MAPRED_HOME_ARG
–hadoop-mapred-home 覆盖$HADOOP_MAPRED_HOME_ARG
–help打印使用说明
–metadata-transaction-isolation-level 定义元数据查询的事务隔离级别
–oracle-escaping-disabled 禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
–password 设置认证密码
–password-alias 凭据提供者密码别名
–password-file 设置认证密码文件路径
–relaxed-isolation使用读未提交隔离进行导入
–skip-dist-cache跳过将jar复制到分布式缓存
–temporary-rootdir 定义导入的临时根目录
–throw-on-error在作业期间发生错误时重新抛出RuntimeException
–username 设置认证用户名
–verbose工作时打印更多信息
Import mainframe control arguments–as-textfile以纯文本形式导入数据(默认)
–compression-codec 导入时使用的压缩编解码器
–dataset 要导入的数据集
–datasettype 数据集类型(p=分区数据集、s=顺序数据集、g=GDG)
–delete-target-dir以删除模式导入数据
-m,–num-mappers 使用’n’个映射任务并行导入
–mapreduce-job-name 为生成的mapreduce作业设置名称
–tape 数据集在磁带上(true、false)
–target-dir HDFS纯文件目标目录
–validate使用配置的验证器进行验证
–validation-failurehandler 验证失败处理程序的完全限定类名
–validation-threshold 验证阈值的完全限定类名
–validator 验证器的完全限定类名
–warehouse-dir 文件目标的HDFS父目录
-z,–compress启用压缩
Output line formatting arguments–enclosed-by 设置必需的字段包围字符
–escaped-by 设置转义字符
–fields-terminated-by 设置字段分隔符字符
–lines-terminated-by 设置行结束字符
–mysql-delimiters使用MySQL的默认分隔符集
–optionally-enclosed-by 设置字段包围字符
Input parsing arguments–input-enclosed-by 设置必需的字段包围符
–input-escaped-by 设置输入转义字符
–input-fields-terminated-by 设置输入字段分隔符
–input-lines-terminated-by 设置输入行结束符
–input-optionally-enclosed-by 设置字段包围符
Hive arguments–create-hive-table如果目标hive表存在,则失败
–external-table-dir 设置外部表在HDFS中的位置
–hive-database 导入到hive时使用的数据库名称
–hive-delims-replacement 用用户定义的字符串替换从导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r)
–hive-drop-import-delims从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r)
–hive-home 覆盖$HIVE_HOME
–hive-import将表导入Hive
–hive-overwrite覆盖Hive表中的现有数据
–hive-partition-key 导入到hive时使用的分区键
–hive-partition-value 导入到hive时使用的分区值
–hive-table 导入到hive时使用的表名
–map-column-hive 覆盖特定列到hive类型的映射
HBase arguments–column-family 设置导入的目标列族
–hbase-bulkload启用HBase批量加载
–hbase-create-table如果指定,则创建缺失的HBase表
–hbase-row-key
指定哪个输入列用作行键
–hbase-table
导入到HBase中的
HCatalog arguments–hcatalog-database HCatalog数据库名称
–hcatalog-home 覆盖$HCAT_HOME
–hcatalog-partition-keys 导入到hive时使用的分区键
–hcatalog-partition-values 导入到hive时使用的分区值
–hcatalog-table HCatalog表名
–map-column-hive 覆盖特定列到hive类型的映射
HCatalog import specific options–create-hcatalog-table导入前创建HCatalog
–drop-and-create-hcatalog-table导入前删除并创建HCatalog
–hcatalog-storage-stanza 表创建时的HCatalog存储stanza
Accumulo arguments–accumulo-batch-size 批处理大小(字节)
–accumulo-column-family 设置导入的目标列族
–accumulo-create-table如果指定,则创建缺失的Accumulo表
–accumulo-instance Accumulo实例名称
–accumulo-max-latency 最大写入延迟(毫秒)
–accumulo-password Accumulo密码
–accumulo-row-key
指定哪个输入列用作行键
–accumulo-table
导入到Accumulo中的
–accumulo-user Accumulo用户名
–accumulo-visibility 应用于导入的所有行的可见性标记
–accumulo-zookeepers 逗号分隔的zookeeper列表(主机:端口)
Code generation arguments–bindir 编译对象的输出目录
–class-name 设置生成的类名,这会覆盖–package-name。与–jar-file结合使用时,设置输入类
–escape-mapping-column-names 禁用列名中的特殊字符转义
–input-null-non-string 输入空值非字符串表示
–input-null-string 输入空字符串表示
–jar-file 禁用代码生成;使用指定的jar
–map-column-java 覆盖特定列到java类型的映射
–null-non-string 空值非字符串表示
–null-string 空字符串表示
–outdir 生成代码的输出目录
–package-name 将自动生成的类放入此包中

job

参数描述

类别参数/命令描述
Job 管理参数–create 创建一个新的保存作业
–delete 删除一个保存的作业
–exec 运行一个保存的作业
–help打印使用说明
–list列出保存的作业
–meta-connect 指定用于元数据存储的JDBC连接字符串
–show 显示保存作业的参数
–verbose在工作时打印更多信息
通用 Hadoop 命令行参数-conf 指定应用程序配置文件
-D <property=value>为给定属性定义一个值
-fs <file:///hdfs://namenode:port>指定要使用的默认文件系统URL,覆盖配置中的’fs.defaultFS’属性
-jt localresourcemanager:port指定ResourceManager
-files <file1,…>指定要复制到MapReduce集群的逗号分隔的文件列表
-libjars <jar1,…>指定要包含在类路径中的逗号分隔的jar文件列表
-archives <archive1,…>指定要在计算机器上解压缩的逗号分隔的存档列表

list-tables

参数描述

类别参数/命令描述
Common 参数–connect 指定JDBC连接字符串
–connection-manager 指定连接管理器类名
–connection-param-file 指定连接参数文件
–driver 手动指定要使用的JDBC驱动类
–hadoop-home 覆盖$HADOOP_HOME环境变量
–hadoop-mapred-home 覆盖$HADOOP_MAPRED_HOME环境变量
–help打印使用说明
–metadata-transaction-isolation-level 定义元数据查询的事务隔离级别
–oracle-escaping-disabled 禁用Oracle/OraOop连接管理器的转义机制
-P从控制台读取密码
–password 设置认证密码
–password-alias 凭据提供者密码别名
–password-file 设置认证密码文件路径
–relaxed-isolation使用读取未提交隔离级别进行导入
–skip-dist-cache跳过将jar复制到分布式缓存
–temporary-rootdir 定义导入的临时根目录
–throw-on-error在作业发生错误时重新抛出RuntimeException
–username 设置认证用户名
–verbose在工作时打印更多信息
通用 Hadoop 命令行参数-conf 指定应用程序配置文件
-D <property=value>为给定属性定义一个值
-fs <file:///hdfs://namenode:port>指定要使用的默认文件系统URL
-jt localresourcemanager:port指定ResourceManager
-files <file1,…>指定要复制到MapReduce集群的逗号分隔的文件列表
-libjars <jar1,…>指定要包含在类路径中的逗号分隔的jar文件列表
-archives <archive1,…>指定要在计算机器上解压缩的逗号分隔的存档列表

merge

参数描述

参数名称描述示例
–class-name指定要加载的记录类名称–class-name com.example.MyClass
–help打印使用说明–help
–jar-file从指定的jar文件中加载类–jar-file /path/to/my.jar
–merge-key用于连接结果的关键列–merge-key id
–new-data指向更近的数据集的路径–new-data /user/hadoop/new_data
–onto指向旧数据集的路径–onto /user/hadoop/old_data
–target-dir合并结果的目标路径–target-dir /user/hadoop/merged_data
–verbose工作时打印更多信息–verbose
-conf指定应用程序配置文件-conf /path/to/config.file
-D为给定属性定义一个值-D mapreduce.job.queuename=default
-fs指定要使用的默认文件系统URL,覆盖配置中的’fs.defaultFS’属性-fs hdfs://namenode:8020
-jt指定ResourceManager-jt resourcemanager:8032
-files指定要复制到MapReduce集群的逗号分隔的文件列表-files /path/to/file1,/path/to/file2
-libjars指定要包含在类路径中的逗号分隔的jar文件列表-libjars /path/to/jar1,/path/to/jar2
-archives指定要在计算机上解压缩的逗号分隔的存档列表-archives /path/to/archive1,/path/to/archive2

原文地址:https://blog.csdn.net/wusuoweiieq/article/details/144337257

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!