Sqoop 指令语法手册
目录
help指令
sqoop help +下面的Sqoop命令(可选)
Sqoop命令 | 描述 |
---|---|
codegen | 生成与数据库记录交互的代码 |
create-hive-table | 将表定义导入到Hive中 |
eval | 评估SQL语句并显示结果 |
export | 将HDFS目录导出到数据库表中 |
help | 列出可用命令 |
import | 从数据库导入表到HDFS |
import-all-tables | 从数据库导入所有表到HDFS |
import-mainframe | 从主机服务器导入数据集到HDFS |
job | 与保存的作业一起工作 |
list-databases | 列出服务器上的可用数据库 |
list-tables | 列出数据库中的可用表 |
merge | 合并增量导入的结果 |
metastore | 运行独立的Sqoop元存储 |
version | 显示版本信息 |
list-databases
参数描述
参数 | 描述 |
---|---|
--connect <jdbc-uri> | 指定JDBC连接字符串 |
--connection-manager <class-name> | 指定连接管理器类名 |
--connection-param-file <properties-file> | 指定连接参数文件 |
--driver <class-name> | 手动指定要使用的JDBC驱动类 |
--hadoop-home <hdir> | 覆盖$HADOOP_MAPRED_HOME_ARG |
--hadoop-mapred-home <dir> | 覆盖$HADOOP_MAPRED_HOME_ARG |
--help | 打印使用说明 |
--metadata-transaction-isolation-level <isolationlevel> | 定义元数据查询的事务隔离级别 |
--oracle-escaping-disabled <boolean> | 禁用Oracle/OraOop连接管理器的转义机制 |
-P | 从控制台读取密码 |
--password <password> | 设置认证密码 |
--password-alias <password-alias> | 凭据提供者密码别名 |
--password-file <password-file> | 设置认证密码文件路径 |
--relaxed-isolation | 使用读取未提交隔离级别进行导入 |
--skip-dist-cache | 跳过将jars复制到分布式缓存 |
--temporary-rootdir <rootdir> | 定义导入的临时根目录 |
--throw-on-error | 在作业发生错误时重新抛出RuntimeException |
--username <username> | 设置认证用户名 |
--verbose | 在工作时打印更多信息 |
-conf <configuration file> | 指定应用程序配置文件(通用Hadoop命令行参数) |
-D <property=value> | 为给定属性定义一个值(通用Hadoop命令行参数) |
-fs <file:///hdfs://namenode:port> | 指定要使用的默认文件系统URL(通用Hadoop命令行参数) |
-jt <localresourcemanager:port> | 指定ResourceManager(通用Hadoop命令行参数) |
-files <file1,...> | 指定要复制到MapReduce集群的逗号分隔文件列表(通用参数) |
-libjars <jar1,...> | 指定要包含在类路径中的逗号分隔jar文件列表(通用参数) |
-archives <archive1,...> | 指定要在计算机上解压缩的逗号分隔存档列表(通用参数) |
其中有些参数是通用的Hadoop命令行参数,它们必须位于任何工具特定参数之前。
示例
sqoop list-databases --connect jdbc:mysql://hadoop100:3306/ --username root --password password
codegen
参数描述
参数分类 | 参数名称 | 描述 |
---|---|---|
Common arguments | --connect <jdbc-uri> | 指定JDBC连接字符串 |
--connection-manager <class-name> | 指定连接管理器类名 | |
--connection-param-file <properties-file> | 指定连接参数文件 | |
--driver <class-name> | 手动指定要使用的JDBC驱动类 | |
--hadoop-home <hdir> | 覆盖$HADOOP_MAPRED_HOME_ARG环境变量,指定Hadoop安装目录 | |
--hadoop-mapred-home <dir> | 覆盖$HADOOP_MAPRED_HOME_ARG环境变量,指定Hadoop MapReduce安装目录 | |
--help | 打印使用说明 | |
--metadata-transaction-isolation-level <isolationlevel> | 定义元数据查询的事务隔离级别 | |
--oracle-escaping-disabled <boolean> | 禁用Oracle/OraOop连接管理器的转义机制 | |
-P | 从控制台读取密码 | |
--password <password> | 设置认证密码 | |
--password-alias <password-alias> | 凭据提供者密码别名 | |
--password-file <password-file> | 设置认证密码文件路径 | |
--relaxed-isolation | 为导入使用读未提交隔离 | |
--skip-dist-cache | 跳过将jar复制到分布式缓存 | |
--temporary-rootdir <rootdir> | 定义导入的临时根目录 | |
--throw-on-error | 在作业发生错误时重新抛出RuntimeException | |
--username <username> | 设置认证用户名 | |
--verbose | 工作时打印更多信息 | |
Code generation arguments | --bindir <dir> | 编译对象的输出目录 |
--class-name <name> | 设置生成的类名,覆盖–package-name。与–jar-file结合使用时,设置输入类 | |
-e,--query <statement> | 生成代码的SQL语句 | |
--escape-mapping-column-names <boolean> | 禁用列名中的特殊字符转义 | |
--input-null-non-string <null-str> | 输入空值(非字符串)的表示 | |
--input-null-string <null-str> | 输入空字符串的表示 | |
--map-column-java <arg> | 覆盖特定列到Java类型的映射 | |
--null-non-string <null-str> | 空值(非字符串)的表示 | |
--null-string <null-str> | 空字符串的表示 | |
--outdir <dir> | 生成代码的输出目录 | |
--package-name <name> | 将自动生成的类放入此包中 | |
--table <table-name> | 要生成代码的表 | |
Output line formatting arguments | --enclosed-by <char> | 设置必需的字段包围字符 |
--escaped-by <char> | 设置转义字符 | |
--fields-terminated-by <char> | 设置字段分隔符字符 | |
--lines-terminated-by <char> | 设置行终止字符 | |
--mysql-delimiters | 使用MySQL的默认分隔符集 | |
--optionally-enclosed-by <char> | 设置字段包围字符(可选) | |
Input parsing arguments | --input-enclosed-by <char> | 设置输入字段的包围字符 |
--input-escaped-by <char> | 设置输入转义字符 | |
--input-fields-terminated-by <char> | 设置输入字段分隔符 | |
--input-lines-terminated-by <char> | 设置输入行终止符 | |
--input-optionally-enclosed-by <char> | 设置输入字段的包围字符(可选) | |
Hive arguments | --create-hive-table | 如果目标Hive表存在,则失败 |
--external-table-dir <hdfs path> | 设置外部表在HDFS中的位置 | |
--hive-database <database-name> | 设置导入到Hive时使用的数据库名 | |
--hive-delims-replacement <arg> | 替换从导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r)为用户定义的字符串 | |
--hive-drop-import-delims | 从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r) | |
--hive-home <dir> | 覆盖$HIVE_HOME环境变量 | |
--hive-import | 将表导入到Hive中(如果未设置,则使用Hive的默认分隔符) | |
--hive-overwrite | 覆盖Hive表中的现有数据 | |
--hive-partition-key <partition-key> | 设置导入到Hive时使用的分区键 | |
--hive-partition-value <partition-value> | 设置导入到Hive时使用的分区值 | |
--hive-table <table-name> | 设置导入到Hive时使用的表名 | |
--map-column-hive <arg> | 覆盖特定列到Hive类型的映射 | |
HCatalog arguments | --hcatalog-database <arg> | HCatalog数据库名 |
--hcatalog-home <hdir> | 覆盖$HCAT_HOME环境变量,指定HCatalog安装目录 | |
--hcatalog-partition-keys <partition-key> | 设置导入到Hive时使用的分区键 | |
--hcatalog-partition-values <partition-value> | 设置导入到Hive时使用的分区值 | |
--hcatalog-table <arg> | HCatalog表名 | |
Generic Hadoop command-line arguments | -conf <configuration file> | 指定应用程序配置文件 |
-D <property=value> | 为给定属性定义一个值 | |
`-fs <file:/// | hdfs://namenode:port>` | |
`-jt <local | resourcemanager:port>` | |
-files <file1,...> | 指定要复制到MapReduce集群的逗号分隔的文件列表 | |
-libjars <jar1,...> | 指定要包含在类路径中的逗号分隔的jar文件列表 | |
-archives <archive1,...> | 指定要在计算机器上解压缩的逗号分隔的存档列表 |
Sqoop create-hive-table
参数描述
参数类别 | 参数名称 | 参数描述 |
---|---|---|
Common arguments | –connect | Specify JDBC connect string |
–connection-manager | Specify connection manager class name | |
–connection-param-file | Specify connection parameters file | |
–driver | Manually specify JDBC driver class to use | |
–hadoop-home | Override $HADOOP_MAPRED_HOME_ARG | |
–hadoop-mapred-home
| Override $HADOOP_MAPRED_HOME_ARG | |
–help | Print usage instructions | |
–metadata-transaction-isolation-level | Defines the transaction isolation level for metadata queries | |
–oracle-escaping-disabled | Disable the escaping mechanism of the Oracle/OraOop connection managers | |
-P | Read password from console | |
–password | Set authentication password | |
–password-alias | Credential provider password alias | |
–password-file | Set authentication password file path | |
–relaxed-isolation | Use read-uncommitted isolation for imports | |
–skip-dist-cache | Skip copying jars to distributed cache | |
–temporary-rootdir | Defines the temporary root directory for the import | |
–throw-on-error | Rethrow a RuntimeException on error occurred during the job | |
–username | Set authentication username | |
–verbose | Print more information while working | |
Hive arguments | –create-hive-table | Fail if the target hive table exists |
–external-table-dir | Sets where the external table is in HDFS | |
–hive-database | Sets the database name to use when importing to hive | |
–hive-delims-replacement | Replace Hive record \0x01 and row delimiters (\n\r) from imported string fields with user-defined string | |
–hive-drop-import-delims | Drop Hive record \0x01 and row delimiters (\n\r) from imported string fields | |
–hive-home
| Override $HIVE_HOME | |
–hive-overwrite | Overwrite existing data in the Hive table | |
–hive-partition-key | Sets the partition key to use when importing to hive | |
–hive-partition-value | Sets the partition value to use when importing to hive | |
–hive-table | Sets the table name to use when importing to hive | |
–map-column-hive | Override mapping for specific column to hive types | |
–table | The db table to read the definition from | |
Output line formatting arguments | –enclosed-by | Sets a required field enclosing character |
–escaped-by | Sets the escape character | |
–fields-terminated-by | Sets the field separator character | |
–lines-terminated-by | Sets the end-of-line character | |
–mysql-delimiters | Uses MySQL’s default delimiter set | |
–optionally-enclosed-by | Sets a field enclosing character | |
Generic Hadoop command-line arguments | -conf | specify an application configuration file |
-D <property=value> | define a value for a given property | |
-fs <file:/// | hdfs://namenode:port> | |
-jt <local | resourcemanager:port> | |
-files <file1,…> | specify a comma-separated list of files to be copied to the map reduce cluster | |
-libjars <jar1,…> | specify a comma-separated list of jar files to be included in the classpath | |
-archives <archive1,…> | specify a comma-separated list of archives to be unarchived on the compute machines |
eval
参数描述
类别 | 参数 | 描述 |
---|---|---|
通用参数 | –connect | 指定JDBC连接字符串 |
–connection-manager | 指定连接管理器类名 | |
–connection-param-file | 指定连接参数文件 | |
–driver | 手动指定JDBC驱动类 | |
–hadoop-home | 覆盖$HADOOP_MAPRED_HOME_ARG | |
–hadoop-mapred-home
| 覆盖$HADOOP_MAPRED_HOME_ARG | |
–help | 打印使用说明 | |
–metadata-transaction-isolation-level | 定义元数据查询的事务隔离级别 | |
–oracle-escaping-disabled | 禁用Oracle/OraOop连接管理器的转义机制 | |
-P | 从控制台读取密码 | |
–password | 设置认证密码 | |
–password-alias | 凭据提供者密码别名 | |
–password-file | 设置认证密码文件路径 | |
–relaxed-isolation | 为导入使用读未提交隔离 | |
–skip-dist-cache | 跳过将jar复制到分布式缓存 | |
–temporary-rootdir | 定义导入的临时根目录 | |
–throw-on-error | 在作业发生错误时重新抛出RuntimeException | |
–username | 设置认证用户名 | |
–verbose | 工作时打印更多信息 | |
SQL评估参数 | -e,–query | 在SQL中执行’statement’并退出 |
Hadoop通用命令行参数 | -conf | 指定应用程序配置文件 |
-D <property=value> | 为给定属性定义值 | |
-fs <file:/// | hdfs://namenode:port> | |
-jt <local | resourcemanager:port> | |
-files <file1,…> | 指定要复制到MapReduce集群的逗号分隔的文件列表 | |
-libjars <jar1,…> | 指定要包含在类路径中的逗号分隔的jar文件列表 | |
-archives <archive1,…> | 指定要在计算机上解压缩的逗号分隔的存档列表 |
Export
参数描述
参数分类 | 参数名称 | 描述 |
---|---|---|
Common arguments | –connect | 指定JDBC连接字符串 |
–connection-manager | 指定连接管理器类名 | |
–connection-param-file | 指定连接参数文件 | |
–driver | 手动指定要使用的JDBC驱动类 | |
–hadoop-home | 覆盖$HADOOP_MAPRED_HOME_ARG | |
–hadoop-mapred-home
| 覆盖$HADOOP_MAPRED_HOME_ARG | |
–help | 打印使用说明 | |
–metadata-transaction-isolation-level | 定义元数据查询的事务隔离级别 | |
–oracle-escaping-disabled | 禁用Oracle/OraOop连接管理器的转义机制 | |
-P | 从控制台读取密码 | |
–password | 设置认证密码 | |
–password-alias | 凭据提供者密码别名 | |
–password-file | 设置认证密码文件路径 | |
–relaxed-isolation | 使用读未提交隔离级别进行导入 | |
–skip-dist-cache | 跳过将jars复制到分布式缓存 | |
–temporary-rootdir | 定义导入的临时根目录 | |
–throw-on-error | 在作业发生错误时重新抛出RuntimeException | |
–username | 设置认证用户名 | |
–verbose | 工作时打印更多信息 | |
Export control arguments | –batch | 指示以批处理模式执行底层语句 |
–call | 使用此存储过程填充表(每行一个调用) | |
–clear-staging-table | 指示可以删除暂存表中的任何数据 | |
–columns <col,col,col…> | 要导出到表的列 | |
–direct | 使用直接导出快速路径 | |
–export-dir
| HDFS源路径,用于导出 | |
-m,–num-mappers | 使用’n’个map任务并行导出 | |
–mapreduce-job-name | 为生成的mapreduce作业设置名称 | |
–staging-table | 中间暂存表 | |
–table | 要填充的表 | |
–update-key | 按指定键列更新记录 | |
–update-mode | 指定当数据库中发现具有不匹配键的新行时如何执行更新 | |
–validate | 使用配置的验证器验证复制 | |
–validation-failurehandler | 验证失败处理程序的完全限定类名 | |
–validation-threshold | 验证阈值的完全限定类名 | |
–validator | 验证器的完全限定类名 | |
Input parsing arguments | –input-enclosed-by | 设置必需的字段包围字符 |
–input-escaped-by | 设置输入转义字符 | |
–input-fields-terminated-by | 设置输入字段分隔符 | |
–input-lines-terminated-by | 设置输入行结束字符 | |
–input-optionally-enclosed-by | 设置字段包围字符 | |
Output line formatting arguments | –enclosed-by | 设置必需的字段包围字符 |
–escaped-by | 设置转义字符 | |
–fields-terminated-by | 设置字段分隔符字符 | |
–lines-terminated-by | 设置行结束字符 | |
–mysql-delimiters | 使用MySQL的默认分隔符集 | |
–optionally-enclosed-by | 设置字段包围字符 | |
Code generation arguments | –bindir
| 编译对象的输出目录 |
–class-name | 设置生成的类名,这会覆盖–package-name | |
–escape-mapping-column-names | 禁用列名中特殊字符的转义 | |
–input-null-non-string | 输入空值非字符串表示 | |
–input-null-string | 输入空字符串表示 | |
–jar-file | 禁用代码生成;使用指定的jar | |
–map-column-java | 为特定列到Java类型的映射设置覆盖 | |
–null-non-string | 空值非字符串表示 | |
–null-string | 空字符串表示 | |
–outdir
| 生成代码的输出目录 | |
–package-name | 将自动生成的类放入此包中 | |
HCatalog arguments | –hcatalog-database | HCatalog数据库名称 |
–hcatalog-home | 覆盖$HCAT_HOME | |
–hcatalog-partition-keys | 设置导入到Hive时要使用的分区键 | |
–hcatalog-partition-values | 设置导入到Hive时要使用的分区值 | |
–hcatalog-table | HCatalog表名 | |
–hive-home
| 覆盖$HIVE_HOME | |
–hive-partition-key | 设置导入到Hive时要使用的分区键 | |
–hive-partition-value | 设置导入到Hive时要使用的分区值 | |
–map-column-hive | 为特定列到Hive类型的映射设置覆盖 | |
Generic Hadoop command-line arguments | -conf | 指定应用程序配置文件 |
-D <property=value> | 为给定属性定义值 | |
-fs <file:///hdfs://namenode:port> | 指定要使用的默认文件系统URL | |
-jt localresourcemanager:port | 指定ResourceManager | |
-files <file1,…> | 指定要复制到mapreduce集群的文件列表 | |
-libjars <jar1,…> | 指定要包含在类路径中的jar文件列表 | |
-archives <archive1,…> | 指定要在计算机上解归档的归档文件列表 |
import
参数描述
参数分类 | 参数名称 | 描述 |
---|---|---|
Common arguments | –connect | 指定JDBC连接字符串 |
–connection-manager | 指定连接管理器类名 | |
–connection-param-file | 指定连接参数文件 | |
–driver | 手动指定JDBC驱动类 | |
–hadoop-home | 覆盖$HADOOP_MAPRED_HOME_ARG | |
–hadoop-mapred-home
| 覆盖$HADOOP_MAPRED_HOME_ARG | |
–help | 打印使用说明 | |
–metadata-transaction-isolation-level | 定义元数据查询的事务隔离级别 | |
–oracle-escaping-disabled | 禁用Oracle/OraOop连接管理器的转义机制 | |
-P | 从控制台读取密码 | |
–password | 设置认证密码 | |
–password-alias | 凭据提供者密码别名 | |
–password-file | 设置认证密码文件路径 | |
–relaxed-isolation | 使用读未提交隔离级别进行导入 | |
–skip-dist-cache | 跳过将jar复制到分布式缓存 | |
–temporary-rootdir | 定义导入的临时根目录 | |
–throw-on-error | 在作业发生错误时重新抛出RuntimeException | |
–username | 设置认证用户名 | |
–verbose | 工作时打印更多信息 | |
Import control arguments | –append | 以追加模式导入数据 |
–as-avrodatafile | 导入数据到Avro数据文件 | |
–as-parquetfile | 导入数据到Parquet文件 | |
–as-sequencefile | 导入数据到SequenceFile | |
–as-textfile | 以纯文本形式导入数据(默认) | |
–autoreset-to-one-mapper | 如果没有分割键,则将映射器数量重置为一个 | |
–boundary-query | 设置用于检索主键最大值和最小值的边界查询 | |
–columns <col,col,col…> | 从表中导入的列 | |
–compression-codec | 导入时使用的压缩编解码器 | |
–delete-target-dir | 以删除模式导入数据 | |
–direct | 使用直接导入快速路径 | |
–direct-split-size | 在直接导入模式下,每’n’字节拆分输入流 | |
-e,–query | 导入SQL语句的结果 | |
–fetch-size | 当需要更多行时,从数据库中获取’n’行 | |
–inline-lob-limit | 设置内联LOB的最大大小 | |
-m,–num-mappers | 使用’n’个映射任务并行导入 | |
–mapreduce-job-name | 为生成的mapreduce作业设置名称 | |
–merge-key | 用于连接结果的键列 | |
–split-by | 用于拆分工作单元的表列 | |
–split-limit | 对于日期/时间/时间戳和整数类型的拆分列,每个拆分的行的上限。对于日期或时间戳字段,它以秒为单位计算。split-limit应大于0 | |
–table | 要读取的表 | |
–target-dir
| HDFS普通表目标目录 | |
–validate | 使用配置的验证器验证副本 | |
–validation-failurehandler | 验证失败处理程序的完全限定类名 | |
–validation-threshold | 验证阈值的完全限定类名 | |
–validator | 验证器的完全限定类名 | |
–warehouse-dir
| 表目标目录的HDFS父目录 | |
–where | 导入期间使用的WHERE子句 | |
-z,–compress | 启用压缩 | |
Incremental import arguments | –check-column | 要检查增量更改的源列 |
–incremental | 定义类型为’append’或’lastmodified’的增量导入 | |
–last-value | 增量检查列中最后导入的值 | |
Output line formatting arguments | –enclosed-by | 设置必需的字段包围字符 |
–escaped-by | 设置转义字符 | |
–fields-terminated-by | 设置字段分隔符字符 | |
–lines-terminated-by | 设置行结束字符 | |
–mysql-delimiters | 使用MySQL的默认分隔符集 | |
–optionally-enclosed-by | 设置字段包围字符 | |
Input parsing arguments | –input-enclosed-by | 设置必需的字段封闭器 |
–input-escaped-by | 设置输入转义字符 | |
–input-fields-terminated-by | 设置输入字段分隔符 | |
–input-lines-terminated-by | 设置输入行结束符 | |
–input-optionally-enclosed-by | 设置字段封闭字符 | |
Hive arguments | –create-hive-table | 如果目标hive表存在,则失败 |
–external-table-dir | 设置外部表在HDFS中的位置 | |
–hive-database | 导入到hive时使用的数据库名称 | |
–hive-delims-replacement | 用用户定义的字符串替换从导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r) | |
–hive-drop-import-delims | 从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r) | |
–hive-home
| 覆盖$HIVE_HOME | |
–hive-import | 导入表到Hive | |
–hive-overwrite | 覆盖Hive表中现有的数据 | |
–hive-partition-key | 导入到hive时使用的分区键 | |
–hive-partition-value | 导入到hive时使用的分区值 | |
–hive-table | 导入到hive时使用的表名 | |
–map-column-hive | 覆盖特定列到hive类型的映射 | |
HBase arguments | –column-family | 设置导入的目标列族 |
–hbase-bulkload | 启用HBase批量加载 | |
–hbase-create-table | 如果指定,则创建缺失的HBase表 | |
–hbase-row-key | ||
指定哪个输入列用作行键 | ||
–hbase-table
| 导入到HBase中的
| |
HCatalog arguments | –hcatalog-database | HCatalog数据库名称 |
–hcatalog-home | 覆盖$HCAT_HOME | |
–hcatalog-partition-keys | 导入到hive时使用的分区键 | |
–hcatalog-partition-values | 导入到hive时使用的分区值 | |
–hcatalog-table | HCatalog表名 | |
–map-column-hive | 覆盖特定列到hive类型的映射 | |
HCatalog import specific options | –create-hcatalog-table | 导入前创建HCatalog |
–drop-and-create-hcatalog-table | 导入前删除并创建HCatalog | |
–hcatalog-storage-stanza | HCatalog表创建的存储语句 | |
Accumulo arguments | –accumulo-batch-size | 批处理大小(字节) |
–accumulo-column-family | 设置导入的目标列族 | |
–accumulo-create-table | 如果指定,则创建缺失的Accumulo表 | |
–accumulo-instance | Accumulo实例名称 | |
–accumulo-max-latency | 最大写入延迟(毫秒) | |
–accumulo-password | Accumulo密码 |
import-all-tables
参数描述
Sqoop import-all-tables 命令参数 | 描述 |
---|---|
–connect | 指定JDBC连接字符串 |
–connection-manager | 指定连接管理器类名 |
–connection-param-file | 指定连接参数文件 |
–driver | 手动指定要使用的JDBC驱动类 |
–hadoop-home | 覆盖$HADOOP_MAPRED_HOME_ARG |
–hadoop-mapred-home
| 覆盖$HADOOP_MAPRED_HOME_ARG |
–help | 打印使用说明 |
–metadata-transaction-isolation-level | 定义元数据查询的事务隔离级别 |
–oracle-escaping-disabled | 禁用Oracle/OraOop连接管理器的转义机制 |
-P | 从控制台读取密码 |
–password | 设置认证密码 |
–password-alias | 凭据提供者密码别名 |
–password-file | 设置认证密码文件路径 |
–relaxed-isolation | 使用读未提交隔离级别进行导入 |
–skip-dist-cache | 跳过将jar复制到分布式缓存 |
–temporary-rootdir | 定义导入的临时根目录 |
–throw-on-error | 在作业发生错误时重新抛出RuntimeException |
–username | 设置认证用户名 |
–verbose | 工作时打印更多信息 |
–as-avrodatafile | 将数据导入为Avro数据文件 |
–as-parquetfile | 将数据导入为Parquet文件 |
–as-sequencefile | 将数据导入为SequenceFiles |
–as-textfile | 将数据导入为纯文本(默认) |
–autoreset-to-one-mapper | 如果没有可用的拆分键,则将映射器数量重置为一个 |
–compression-codec | 导入时使用的压缩编解码器 |
–direct | 使用直接导入快速路径 |
–direct-split-size | 在直接模式下导入时,每’n’字节拆分输入流 |
–exclude-tables | 导入所有表时排除的表 |
–fetch-size | 当需要更多行时,从数据库中获取’n’行数 |
–inline-lob-limit | 设置内联LOB的最大大小 |
-m,–num-mappers | 使用’n’个映射任务并行导入 |
–mapreduce-job-name | 为生成的mapreduce作业设置名称 |
–warehouse-dir
| 表目标位置的HDFS父目录 |
-z,–compress | 启用压缩 |
–enclosed-by | 设置必需的字段包围字符 |
–escaped-by | 设置转义字符 |
–fields-terminated-by | 设置字段分隔符字符 |
–lines-terminated-by | 设置行尾字符 |
–mysql-delimiters | 使用MySQL的默认分隔符集 |
–optionally-enclosed-by | 设置字段包围字符 |
–input-enclosed-by | 设置必需的字段封闭器 |
–input-escaped-by | 设置输入转义字符 |
–input-fields-terminated-by | 设置输入字段分隔符 |
–input-lines-terminated-by | 设置输入行尾字符 |
–input-optionally-enclosed-by | 设置字段封闭字符 |
–create-hive-table | 如果目标hive表存在,则失败 |
–external-table-dir | 设置外部表在HDFS中的位置 |
–hive-database | 导入到hive时使用的数据库名称 |
–hive-delims-replacement | 用用户定义的字符串替换导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r) |
–hive-drop-import-delims | 从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r) |
–hive-home
| 覆盖$HIVE_HOME |
–hive-import | 将表导入到Hive中 |
–hive-overwrite | 覆盖Hive表中现有的数据 |
–hive-partition-key | 导入到hive时使用的分区键 |
–hive-partition-value | 导入到hive时使用的分区值 |
–hive-table | 导入到hive时使用的表名 |
–map-column-hive | 覆盖特定列到hive类型的映射 |
–column-family | 设置导入的目标列族 |
–hbase-bulkload | 启用HBase批量加载 |
–hbase-create-table | 如果指定,则创建缺失的HBase表 |
–hbase-row-key | |
指定哪个输入列用作行键 | |
–hbase-table
| 导入到HBase中的
|
–hcatalog-database | HCatalog数据库名称 |
–hcatalog-home | 覆盖$HCAT_HOME |
–hcatalog-partition-keys | 导入到hive时使用的分区键 |
–hcatalog-partition-values | 导入到hive时使用的分区值 |
–hcatalog-table | HCatalog表名 |
–create-hcatalog-table | 导入前创建HCatalog |
–drop-and-create-hcatalog-table | 导入前删除并创建HCatalog |
–hcatalog-storage-stanza | HCatalog表创建的存储语句 |
–accumulo-batch-size | 批次大小(以字节为单位) |
–accumulo-column-family | 设置导入的目标列族 |
–accumulo-create-table | 如果指定,则创建缺失的Accumulo表 |
–accumulo-instance | Accumulo实例名称 |
–accumulo-max-latency | 最大写入延迟(以毫秒为单位) |
–accumulo-password | Accumulo密码 |
–accumulo-row-key | |
指定哪个输入列用作行键 | |
–accumulo-table
| 导入到Accumulo中的
|
–accumulo-user | Accumulo用户名 |
–accumulo-visibility | 应用于所有导入行的可见性标记 |
–accumulo-zookeepers | 逗号分隔的zookeeper列表(主机:端口) |
–bindir
| 编译对象的输出目录 |
–escape-mapping-column-names | 禁用列名中的特殊字符转义 |
–input-null-non-string | 输入空值非字符串表示 |
–input-null-string | 输入空字符串表示 |
–jar-file | 禁用代码生成;使用指定的jar |
–map-column-java | 覆盖特定列到java类型的映射 |
–null-non-string | 空值非字符串表示 |
–null-string | 空字符串表示 |
–outdir
| 生成代码的输出目录 |
–package-name | 将自动生成的类放入此包中 |
-conf | 指定应用程序配置文件 |
-D <property=value> | 为给定属性定义值 |
-fs <file:///|hdfs://namenode:port> | 指定要使用的默认文件系统URL,覆盖配置中的’fs.defaultFS’属性 |
-jt <local|resourcemanager:port> | 指定ResourceManager |
-files <file1,…> | 指定要复制到mapreduce集群的逗号分隔的文件列表 |
-libjars <jar1,…> | 指定要包含在类路径中的逗号分隔的jar文件列表 |
-archives <archive1,…> | 指定要在计算机上解压缩的逗号分隔的存档列表 |
import-mainframe
参数描述
参数分类 | 参数名称 | 描述 |
---|---|---|
Common arguments | –connect | 指定JDBC连接字符串 |
–connection-manager | 指定连接管理器类名 | |
–connection-param-file | 指定连接参数文件 | |
–driver | 手动指定要使用的JDBC驱动类 | |
–hadoop-home | 覆盖$HADOOP_MAPRED_HOME_ARG | |
–hadoop-mapred-home
| 覆盖$HADOOP_MAPRED_HOME_ARG | |
–help | 打印使用说明 | |
–metadata-transaction-isolation-level | 定义元数据查询的事务隔离级别 | |
–oracle-escaping-disabled | 禁用Oracle/OraOop连接管理器的转义机制 | |
-P | 从控制台读取密码 | |
–password | 设置认证密码 | |
–password-alias | 凭据提供者密码别名 | |
–password-file | 设置认证密码文件路径 | |
–relaxed-isolation | 使用读未提交隔离进行导入 | |
–skip-dist-cache | 跳过将jar复制到分布式缓存 | |
–temporary-rootdir | 定义导入的临时根目录 | |
–throw-on-error | 在作业期间发生错误时重新抛出RuntimeException | |
–username | 设置认证用户名 | |
–verbose | 工作时打印更多信息 | |
Import mainframe control arguments | –as-textfile | 以纯文本形式导入数据(默认) |
–compression-codec | 导入时使用的压缩编解码器 | |
–dataset | 要导入的数据集 | |
–datasettype | 数据集类型(p=分区数据集、s=顺序数据集、g=GDG) | |
–delete-target-dir | 以删除模式导入数据 | |
-m,–num-mappers | 使用’n’个映射任务并行导入 | |
–mapreduce-job-name | 为生成的mapreduce作业设置名称 | |
–tape | 数据集在磁带上(true、false) | |
–target-dir
| HDFS纯文件目标目录 | |
–validate | 使用配置的验证器进行验证 | |
–validation-failurehandler | 验证失败处理程序的完全限定类名 | |
–validation-threshold | 验证阈值的完全限定类名 | |
–validator | 验证器的完全限定类名 | |
–warehouse-dir
| 文件目标的HDFS父目录 | |
-z,–compress | 启用压缩 | |
Output line formatting arguments | –enclosed-by | 设置必需的字段包围字符 |
–escaped-by | 设置转义字符 | |
–fields-terminated-by | 设置字段分隔符字符 | |
–lines-terminated-by | 设置行结束字符 | |
–mysql-delimiters | 使用MySQL的默认分隔符集 | |
–optionally-enclosed-by | 设置字段包围字符 | |
Input parsing arguments | –input-enclosed-by | 设置必需的字段包围符 |
–input-escaped-by | 设置输入转义字符 | |
–input-fields-terminated-by | 设置输入字段分隔符 | |
–input-lines-terminated-by | 设置输入行结束符 | |
–input-optionally-enclosed-by | 设置字段包围符 | |
Hive arguments | –create-hive-table | 如果目标hive表存在,则失败 |
–external-table-dir | 设置外部表在HDFS中的位置 | |
–hive-database | 导入到hive时使用的数据库名称 | |
–hive-delims-replacement | 用用户定义的字符串替换从导入的字符串字段中的Hive记录\0x01和行分隔符(\n\r) | |
–hive-drop-import-delims | 从导入的字符串字段中删除Hive记录\0x01和行分隔符(\n\r) | |
–hive-home
| 覆盖$HIVE_HOME | |
–hive-import | 将表导入Hive | |
–hive-overwrite | 覆盖Hive表中的现有数据 | |
–hive-partition-key | 导入到hive时使用的分区键 | |
–hive-partition-value | 导入到hive时使用的分区值 | |
–hive-table | 导入到hive时使用的表名 | |
–map-column-hive | 覆盖特定列到hive类型的映射 | |
HBase arguments | –column-family | 设置导入的目标列族 |
–hbase-bulkload | 启用HBase批量加载 | |
–hbase-create-table | 如果指定,则创建缺失的HBase表 | |
–hbase-row-key | ||
指定哪个输入列用作行键 | ||
–hbase-table
| 导入到HBase中的
| |
HCatalog arguments | –hcatalog-database | HCatalog数据库名称 |
–hcatalog-home | 覆盖$HCAT_HOME | |
–hcatalog-partition-keys | 导入到hive时使用的分区键 | |
–hcatalog-partition-values | 导入到hive时使用的分区值 | |
–hcatalog-table | HCatalog表名 | |
–map-column-hive | 覆盖特定列到hive类型的映射 | |
HCatalog import specific options | –create-hcatalog-table | 导入前创建HCatalog |
–drop-and-create-hcatalog-table | 导入前删除并创建HCatalog | |
–hcatalog-storage-stanza | 表创建时的HCatalog存储stanza | |
Accumulo arguments | –accumulo-batch-size | 批处理大小(字节) |
–accumulo-column-family | 设置导入的目标列族 | |
–accumulo-create-table | 如果指定,则创建缺失的Accumulo表 | |
–accumulo-instance | Accumulo实例名称 | |
–accumulo-max-latency | 最大写入延迟(毫秒) | |
–accumulo-password | Accumulo密码 | |
–accumulo-row-key | ||
指定哪个输入列用作行键 | ||
–accumulo-table
| 导入到Accumulo中的
| |
–accumulo-user | Accumulo用户名 | |
–accumulo-visibility | 应用于导入的所有行的可见性标记 | |
–accumulo-zookeepers | 逗号分隔的zookeeper列表(主机:端口) | |
Code generation arguments | –bindir
| 编译对象的输出目录 |
–class-name | 设置生成的类名,这会覆盖–package-name。与–jar-file结合使用时,设置输入类 | |
–escape-mapping-column-names | 禁用列名中的特殊字符转义 | |
–input-null-non-string | 输入空值非字符串表示 | |
–input-null-string | 输入空字符串表示 | |
–jar-file | 禁用代码生成;使用指定的jar | |
–map-column-java | 覆盖特定列到java类型的映射 | |
–null-non-string | 空值非字符串表示 | |
–null-string | 空字符串表示 | |
–outdir
| 生成代码的输出目录 | |
–package-name | 将自动生成的类放入此包中 |
job
参数描述
类别 | 参数/命令 | 描述 |
---|---|---|
Job 管理参数 | –create | 创建一个新的保存作业 |
–delete | 删除一个保存的作业 | |
–exec | 运行一个保存的作业 | |
–help | 打印使用说明 | |
–list | 列出保存的作业 | |
–meta-connect | 指定用于元数据存储的JDBC连接字符串 | |
–show | 显示保存作业的参数 | |
–verbose | 在工作时打印更多信息 | |
通用 Hadoop 命令行参数 | -conf | 指定应用程序配置文件 |
-D <property=value> | 为给定属性定义一个值 | |
-fs <file:///hdfs://namenode:port> | 指定要使用的默认文件系统URL,覆盖配置中的’fs.defaultFS’属性 | |
-jt localresourcemanager:port | 指定ResourceManager | |
-files <file1,…> | 指定要复制到MapReduce集群的逗号分隔的文件列表 | |
-libjars <jar1,…> | 指定要包含在类路径中的逗号分隔的jar文件列表 | |
-archives <archive1,…> | 指定要在计算机器上解压缩的逗号分隔的存档列表 |
list-tables
参数描述
类别 | 参数/命令 | 描述 |
---|---|---|
Common 参数 | –connect | 指定JDBC连接字符串 |
–connection-manager | 指定连接管理器类名 | |
–connection-param-file | 指定连接参数文件 | |
–driver | 手动指定要使用的JDBC驱动类 | |
–hadoop-home | 覆盖$HADOOP_HOME环境变量 | |
–hadoop-mapred-home
| 覆盖$HADOOP_MAPRED_HOME环境变量 | |
–help | 打印使用说明 | |
–metadata-transaction-isolation-level | 定义元数据查询的事务隔离级别 | |
–oracle-escaping-disabled | 禁用Oracle/OraOop连接管理器的转义机制 | |
-P | 从控制台读取密码 | |
–password | 设置认证密码 | |
–password-alias | 凭据提供者密码别名 | |
–password-file | 设置认证密码文件路径 | |
–relaxed-isolation | 使用读取未提交隔离级别进行导入 | |
–skip-dist-cache | 跳过将jar复制到分布式缓存 | |
–temporary-rootdir | 定义导入的临时根目录 | |
–throw-on-error | 在作业发生错误时重新抛出RuntimeException | |
–username | 设置认证用户名 | |
–verbose | 在工作时打印更多信息 | |
通用 Hadoop 命令行参数 | -conf | 指定应用程序配置文件 |
-D <property=value> | 为给定属性定义一个值 | |
-fs <file:///hdfs://namenode:port> | 指定要使用的默认文件系统URL | |
-jt localresourcemanager:port | 指定ResourceManager | |
-files <file1,…> | 指定要复制到MapReduce集群的逗号分隔的文件列表 | |
-libjars <jar1,…> | 指定要包含在类路径中的逗号分隔的jar文件列表 | |
-archives <archive1,…> | 指定要在计算机器上解压缩的逗号分隔的存档列表 |
merge
参数描述
参数名称 | 描述 | 示例 |
---|---|---|
–class-name | 指定要加载的记录类名称 | –class-name com.example.MyClass |
–help | 打印使用说明 | –help |
–jar-file | 从指定的jar文件中加载类 | –jar-file /path/to/my.jar |
–merge-key | 用于连接结果的关键列 | –merge-key id |
–new-data | 指向更近的数据集的路径 | –new-data /user/hadoop/new_data |
–onto | 指向旧数据集的路径 | –onto /user/hadoop/old_data |
–target-dir | 合并结果的目标路径 | –target-dir /user/hadoop/merged_data |
–verbose | 工作时打印更多信息 | –verbose |
-conf | 指定应用程序配置文件 | -conf /path/to/config.file |
-D | 为给定属性定义一个值 | -D mapreduce.job.queuename=default |
-fs | 指定要使用的默认文件系统URL,覆盖配置中的’fs.defaultFS’属性 | -fs hdfs://namenode:8020 |
-jt | 指定ResourceManager | -jt resourcemanager:8032 |
-files | 指定要复制到MapReduce集群的逗号分隔的文件列表 | -files /path/to/file1,/path/to/file2 |
-libjars | 指定要包含在类路径中的逗号分隔的jar文件列表 | -libjars /path/to/jar1,/path/to/jar2 |
-archives | 指定要在计算机上解压缩的逗号分隔的存档列表 | -archives /path/to/archive1,/path/to/archive2 |
原文地址:https://blog.csdn.net/wusuoweiieq/article/details/144337257
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!