18
18
\< bucket\> 名称或者 \< path\> -result 来创建目录。**
19
19
20
20
### 1 公共参数
21
+ > config.txt
21
22
```
22
23
path=
23
24
unit-len=
@@ -31,6 +32,8 @@ indexes=key,etag,fsize
31
32
| threads| 整型数| 表示预期最大线程数,若实际得到的文件数或列举前缀数小于该值时以实际数目为准|
32
33
| indexes| 字符串列表| 资源元信息字段索引(下标),设置输入行对应的元信息字段下标|
33
34
35
+ 运行参数:` -config=config.txt `
36
+
34
37
** 备注:** indexes、unit-len、threads 均有默认值非必填,indexes 说明及默认值参考下述[ indexes 索引] ( #关于-indexes-索引 ) ,unit-len 和
35
38
threads 说明及默认值参考下述[ 并发处理] ( #关于并发处理 ) ,建议根据需要优化参数配置。
36
39
@@ -104,6 +107,7 @@ indexes 的设置通常采用第一种方式,即 `indexes=pre-<个数>`,如
104
107
本地文件数据源分为** 两种情况:(1)读取文件内容为数据列表按行输入(2)读取路径下的文件本身,包括目录遍历,得到文件信息作为输入**
105
108
### 2.1 文本文件行读取
106
109
文件内容为资源列表,可按行读取输入文件的内容获取资源列表,文件行解析参数如下:
110
+ > config.txt
107
111
```
108
112
parse=tab/json
109
113
separator=\t
@@ -125,6 +129,8 @@ uri-config=
125
129
| uris| 字符串| 数据源路径下需要读取的文件名列表,如果只想处理部分文件,可使用参数设置列表的方式,以 ` , ` 号分割文件名,不设置默认读取 path 下全部文本文件|
126
130
| uri-config| 配置文件路径| 配置文件格式为 json,表示 file 数据源中各列表的位置信息,文件名对应的值表示读取该文件的起始位置,可参考[ uri-config 配置] ( #关于-uri-config ) |
127
131
132
+ 运行参数:` -config=config.txt `
133
+
128
134
#### 关于 parse
129
135
数据源输入的文件列表为每行一条数据,parse 决定了数据的解析方式以及索引的设置方式,以下做简单举例说明,关于具体的其他索引设置参考对应 process 的文档。
130
136
如文件列表为 \t 分割的行:
@@ -200,6 +206,7 @@ directory-config 中的目录名可以采取相对 path 路径下的目录名。
200
206
| value| 表示数据源中某一行的内容,如 "qiniu_success_1.txt" 表示 "/Users/wubingheng/Projects/Github/test" 目录中可能存在该文件名|
201
207
202
208
### 3 storage 云存储列举
209
+ > config.txt
203
210
```
204
211
<密钥配置>
205
212
region=
@@ -223,6 +230,8 @@ prefix-right=
223
230
| prefix-left| true/false| 当设置多个前缀时,可选择是否列举所有前缀 ASCII 顺序之前的文件|
224
231
| prefix-right| true/false| 当设置多个前缀时,可选择是否列举所有前缀 ASCII 顺序之后的文件|
225
232
233
+ 运行参数:` -config=config.txt `
234
+
226
235
支持从不同的云存储上列举出空间文件,默认线程数(threads 参数)为 50,千万以内文件数量可以不增加线程,数据源路径等公共参数参考[ 公共参数配置] ( #1-公共参数 ) ,
227
236
通常云存储空间列举的必须参数包括密钥、空间名(通过 path 或 bucket 设置)及空间所在区域(通过 region 设置,允许不设置的情况下表明支持自动查询),各数
228
237
据源配置参数如下:
@@ -312,7 +321,8 @@ threads 小于等于 100,100 万左右及以下的文件数量设置 threads
312
321
```
313
322
314
323
## 数据源示例
315
- 如果已设置账号,则不需要再直接设置密钥,可以通过 ` -a=<account-name> ` /` -d ` 来读取账号,参考:[ 账号设置] ( ../README.md#账号设置 )
324
+ 1、如果已设置账号,则不需要再直接设置密钥,可以通过 ` -a=<account-name> ` /` -d ` 来读取账号,参考:[ 账号设置] ( ../README.md#账号设置 )
325
+ 2、如果使用配置文件的方式,假设配置文件名为 ` config.txt ` ,则运行参数为:` -config=config.txt `
316
326
317
327
### 1 七牛云存储
318
328
命令行参数示例:
0 commit comments