Skip to content

Commit 4a1810c

Browse files
author
吴炳亨
authored
Merge pull request #297 from NigelWu95/dev
Dev
2 parents 54e430b + bff1a2e commit 4a1810c

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

41 files changed

+225
-55
lines changed

Makefile

+1-1
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,4 @@
1-
version=8.4.1
1+
version=8.4.2
22

33
package_no_test:
44
mvn package -Dmaven.test.skip=true

README.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -389,7 +389,7 @@ java.net.SocketTimeoutException: timeout
389389
2、对于云存储文件列表列举操作记录的断点可以直接作为下次续操作的配置来使用完成后续列举,如断点文件为 \<filename\>.json,则在下次列举时使用断点文件
390390
作为前缀配置文件: prefix-config=<breakpoint_filepath> 即可,参见:[prefix-config 配置](docs/datasource.md#prefix-config-配置)
391391
3、对于 file 数据源读取文件列表时,产生的断点文件记录了读取的文本行,可以直接作为下次续操作的配置来使用完成后续列举,如断点文件为 \<filename\>.json,
392-
则在下次继续读 file 数据源操作时使用断点文件作为行配置文件: uri-config=<breakpoint_filepath> 即可,参见:[uri-config 配置](docs/datasource.md#uri-config-配置)
392+
则在下次继续读 file 数据源操作时使用断点文件作为行配置文件: uri-config=<breakpoint_filepath> 即可,参见:[uri-config 配置](docs/datasource.md#uri-config-配置)
393393
4、对于 file 数据源进行上传的情况,断点信息记录的是目录下已经上传到的文件名位置,产生的断点文件亦可以直接作为下次续操作的配置来使用完成后续上传,如
394394
断点文件为 \<filename\>.json,则在下次继续上传该 path 目录的文件时使用断点文件作为行配置文件: directory-config=<breakpoint_filepath>
395395
即可(注意是 directory-config),参见:[directory-config 配置](docs/uploadfile.md#directory-config-配置)

docs/asyncfetch.md

+5-1
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,9 @@
88
4. 交互式操作随时输入 url 进行抓取请参考[ interactive 操作](interactive.md)
99

1010
## 配置
11+
> config.txt
1112
```
13+
path=
1214
process=asyncfetch
1315
ak/qiniu-ak=
1416
sk/qiniu-sk=
@@ -54,13 +56,15 @@ check-url=
5456
|ignore-same-key| true/false|为 false 时表示覆盖同名文件,为 true 表示不覆盖|
5557
|check-url| true/false|表示是否在提交任务之前对回调地址进行简单的 post 请求验证(无body的纯post请求),默认为 true,如果无需验证则设置为 false|
5658

59+
运行参数:`-config=config.txt`
60+
5761
### 关于 url-index 和 md5-index
5862
当使用 file 数据源且 parse=tab/csv 时 [xx-]index(ex) 设置的下标必须为整数。url-index 表示输入行中含 url 的字段索引,未设置的情况下则使用
5963
key 字段加上 domain 的方式访问源文件地址,key 下标用 indexes 参数设置,默认会根据 parse 类型设置为 0 或 "key",参见[ indexes 索引](datasource.md#关于-indexes-索引)
6064
[关于 parse 和索引](datasource.md#关于-parse),md5-index 为需要进行 md5 校验时输入 md5 值的字段下标,不设置则无效。
6165

6266
### 命令行参数方式
6367
```
64-
-process=asyncfetch -ak= -sk= -to-bucket= -add-prefix= -protocol= -domain= -host= -callback-url= -callback-body= -callback-body-type= -callback-host= -file-type= -ignore-same-key=
68+
-path= -process=asyncfetch -ak= -sk= -to-bucket= -add-prefix= -protocol= -domain= -host= -callback-url= -callback-body= -callback-body-type= -callback-host= -file-type= -ignore-same-key=
6569
```
6670

docs/avinfo.md

+5-1
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,9 @@
77
3. 交互式操作随时输入 url 进行查询请参考[ interactive 操作](interactive.md)
88

99
## 配置
10+
> config.txt
1011
```
12+
path=
1113
process=avinfo
1214
protocol=
1315
domain=
@@ -22,12 +24,14 @@ url-index=
2224
|indexes|字符串| 设置输入行中 key 字段的下标(有默认值),参考[数据源 indexes 设置](datasource.md#1-公共参数)|
2325
|url-index| 字符串| 通过 url 操作时需要设置的 url 索引(下标),未设置任何索引和 domain 时根据 parse 类型默认为 0 或 "url"|
2426

27+
运行参数:`-config=config.txt`
28+
2529
### 关于 url-index
2630
当使用 file 源且 parse=tab/csv 时 [xx-]index(ex) 设置的下标必须为整数。url-index 表示输入行含 url 形式的源文件地址,未设置的情况下则使用
2731
key 字段加上 domain 的方式访问源文件地址,key 下标用 indexes 参数设置,默认会根据 parse 类型设置为 0 或 "key",参见[ indexes 索引](datasource.md#关于-indexes-索引)
2832
[关于 parse 和索引](datasource.md#关于-parse)
2933

3034
### 命令行方式
3135
```
32-
-process=avinfo -protocol= -domain=
36+
-path= -process=avinfo -protocol= -domain=
3337
```

docs/cdn.md

+20-3
Original file line numberDiff line numberDiff line change
@@ -10,7 +10,9 @@
1010

1111
## 配置
1212
### CDN 刷新缓存
13+
> config.txt
1314
```
15+
path=
1416
process=cdnrefresh
1517
ak=
1618
sk=
@@ -30,6 +32,8 @@ is-dir=
3032
|url-index| 字符串| 通过 url 操作时需要设置的 url 索引(下标),未设置任何索引和 domain 时根据 parse 类型默认为 0 或 "url"|
3133
|is-dir| true/false| 是否进行目录刷新,设置为 true 时,输入的 url 或 key 必须是目录形式(即以 / 结尾),默认为 false,表示进行 url 刷新|
3234

35+
运行参数:`-config=config.txt`
36+
3337
#### 关于 url-index
3438
当 parse=tab/csv 时 [xx-]index(ex) 设置的下标必须为整数。url-index 表示输入行中存在 url 形式的源文件地址,未设置的情况下则默认从 key 字段
3539
加上 domain 的方式访问源文件地址,key 下标用 indexes 参数设置,默认会根据 parse 类型设置为 0 或 "key",参见[ indexes 索引](datasource.md#关于-indexes-索引)
@@ -41,11 +45,13 @@ is-dir=
4145

4246
#### 命令行方式
4347
```
44-
-process=cdnrefresh -ak= -sk= -bucket= -batch-size=
48+
-path= -process=cdnrefresh -ak= -sk= -bucket= -batch-size=
4549
```
4650

4751
### CDN 资源预取
52+
> config.txt
4853
```
54+
path=
4955
process=cdnprefetch
5056
ak=
5157
sk=
@@ -63,6 +69,8 @@ url-index=
6369
|indexes|字符串| 设置输入行中 key 字段的下标(有默认值),参考[数据源 indexes 设置](datasource.md#1-公共参数)|
6470
|url-index| 字符串| 通过 url 操作时需要设置的 url 索引(下标),未设置任何索引和 domain 时根据 parse 类型默认为 0 或 "url"|
6571

72+
运行参数:`-config=config.txt`
73+
6674
#### 关于 url-index
6775
当 parse=tab/csv 时 [xx-]index(ex) 设置的下标必须为整数。url-index 表示输入行中存在 url 形式的源文件地址,未设置的情况下则默认从 key 字段
6876
加上 domain 的方式访问源文件地址,key 下标用 indexes 参数设置,默认会根据 parse 类型设置为 0 或 "key",参见[ indexes 索引](datasource.md#关于-indexes-索引)
@@ -73,11 +81,13 @@ url-index=
7381

7482
#### 命令行方式
7583
```
76-
-process=cdnprefetch -ak= -sk= -bucket=
84+
-path= -process=cdnprefetch -ak= -sk= -bucket=
7785
```
7886

7987
### CDN 刷新/预取结果查询
88+
> config.txt
8089
```
90+
path=
8191
process=refreshquery/prefetchquery
8292
ak=
8393
sk=
@@ -95,10 +105,17 @@ url-index=
95105
|indexes|字符串| 设置输入行中 key 字段的下标(有默认值),参考[数据源 indexes 设置](datasource.md#1-公共参数)|
96106
|url-index| 字符串| 通过 url 操作时需要设置的 url 索引(下标),未设置任何索引和 domain 时根据 parse 类型默认为 0 或 "url"|
97107

108+
运行参数:`-config=config.txt`
109+
110+
#### 关于 url-index
111+
当 parse=tab/csv 时 [xx-]index(ex) 设置的下标必须为整数。url-index 表示输入行中存在 url 形式的源文件地址,未设置的情况下则默认从 key 字段
112+
加上 domain 的方式访问源文件地址,key 下标用 indexes 参数设置,默认会根据 parse 类型设置为 0 或 "key",参见[ indexes 索引](datasource.md#关于-indexes-索引)
113+
[关于 parse 和索引](datasource.md#关于-parse)
114+
98115
#### 批量查询的 url 条数
99116
每次提交查询条数默认 100 条,如果需要其他规模,可以通过 batch-size 参数来设置,如 `batch-size=80`,但是查询的每次提交条数上限是 100。
100117

101118
#### 命令行方式
102119
```
103-
-process=refreshquery/prefetchquery -ak= -sk= -bucket= -batch-size=
120+
-path= -process=refreshquery/prefetchquery -ak= -sk= -bucket= -batch-size=
104121
```

docs/censor.md

+8-2
Original file line numberDiff line numberDiff line change
@@ -12,7 +12,9 @@
1212
### 图片审核
1313
审核 image 类型的资源,同步审核,审核结果输出为 json:[七牛图片审核响应 json](https://developer.qiniu.com/censor/api/5588/image-censor#4)
1414
如果数据源的资源类型不确定(如云存储数据源),建议设置 filter 选项:f-mime=image
15+
> config.txt
1516
```
17+
path=
1618
process=imagecensor
1719
ak=
1820
sk=
@@ -48,8 +50,10 @@ queries 参数用于设置 url 的后缀或 ?+参数部分,内容审核可能
4850
### 视频审核
4951
审核 video 类型的资源,异步审核,审核结果输出为 jobId,要获取进一步的实际审核结果需要通过 id 查询,参考该工具的 [censorresult 操作](censorresult.md)
5052
七牛官网文档见:[通过jobid获取视频审核结果](https://developer.qiniu.com/censor/api/5620/video-censor#4),如果数据源的资源类型不确定
51-
(如云存储数据源),建议设置 filter 选项:f-mime=video
53+
(如云存储数据源),建议设置 filter 选项:f-mime=video
54+
> config.txt
5255
```
56+
path=
5357
process=videocensor
5458
ak=
5559
sk=
@@ -81,6 +85,8 @@ private=
8185
|check-url| true/false|表示是否在提交任务之前对回调地址进行简单的 post 请求验证(无body的纯post请求),默认为 true,如果无需验证则设置为 false|
8286
|private| 数据源私有类型|是否是对私有空间资源进行审核,选择对应的私有类型,参考[私有访问](#资源需要私有签名)|
8387

88+
运行参数:`-config=config.txt`
89+
8490
### 资源需要私有签名
8591
当进行图片审核的 url 需要通过私有鉴权访问时(资源来自于存储私有权限的空间),本工具支持串联操作,即先进行对应的私有签名再提交审核,使用如下的 private
8692
参数设置即可,如不需要进行私有访问则不设置,目前支持以下几类签名:
@@ -93,6 +99,6 @@ private=
9399

94100
### 命令行参数方式
95101
```
96-
-process=imagecensor/videocensor -ak= -sk= -protocol= -domain= ...
102+
-path= -process=imagecensor/videocensor -ak= -sk= -protocol= -domain= ...
97103
```
98104

docs/censorresult.md

+5-1
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,9 @@
88
4. 交互式操作随时输入 id 进行查询请参考[ interactive 操作](interactive.md)
99

1010
## 配置
11+
> config.txt
1112
```
13+
path=
1214
process=censorresult
1315
ak=
1416
sk=
@@ -20,9 +22,11 @@ id-index=
2022
|ak、sk|长度 40 的字符串|七牛账号的ak、sk,通过七牛控制台个人中心获取|
2123
|id-index| 字符串| 转码结果查询所需 jobId 的索引(下标),未设置任何索引时根据 parse 类型默认为 0 或 "id"|
2224

25+
运行参数:`-config=config.txt`
26+
2327
### 命令行方式
2428
```
25-
-process=censorresult -id-index=
29+
-path= -process=censorresult -id-index=
2630
```
2731

2832
## 备注

docs/copy.md

+5-1
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,9 @@
88
4. 交互式操作随时输入 key 进行复制请参考[ interactive 操作](interactive.md)
99

1010
## 配置
11+
> config.txt
1112
```
13+
path=
1214
process=copy
1315
ak=<ak>
1416
sk=<sk>
@@ -32,12 +34,14 @@ force=
3234
|rm-prefix| 字符串| 表示将原文件名去除存在的指定前缀后作为 copy 之后保存的文件名|
3335
|force| true/false| 目标文件名如果目标空间中已存在是否进行强制覆盖,默认为 false|
3436

37+
运行参数:`-config=config.txt`
38+
3539
### 关于 toKey-index
3640
指定输入行中对应修改之后的文件名字段下标,不设置则无法进行解析,当使用 file 源且 parse=tab/csv 时下标必须为整数,toKey 下标和 key 字段下标不可
3741
相同,key 下标用 indexes 参数设置,默认会根据 parse 类型设置为 0 或 "key",参见[ indexes 索引](datasource.md#关于-indexes-索引)[关于 parse 和索引](datasource.md#关于-parse)
3842
**注意**:七牛存储空间不支持文件名以 `../`, `./` 开头或者包含 `/../`, `/./` 这种情况,会造成无法访问,因此设置文件名时请注意。
3943

4044
### 命令行方式
4145
```
42-
-process=copy -ak= -sk= -bucket= -to-bucket= -toKey-index= -add-prefix= -rm-prefix=
46+
-path= -process=copy -ak= -sk= -bucket= -to-bucket= -toKey-index= -add-prefix= -rm-prefix=
4347
```

docs/datamigration.md

+3
Original file line numberDiff line numberDiff line change
@@ -52,6 +52,9 @@ path 来设置保存的文件名,主要可用于内网下载再上传的场景
5252

5353
因此数据备份/迁移操作的配置参数主要包含两部分,即**数据源配置****process 配置**,配置参考如下:
5454

55+
**Tip1**:如果使用配置文件的方式(推荐),假设配置文件名为 `config.txt`,则运行参数为:`-config=config.txt`
56+
**Tip2**:如果使用命令行参数的方式,将各项参数加上 `-` 依次添加在命令中即可
57+
5558
#### 1. 阿里云 oss
5659
```
5760
path=aliyun://<bucket>

docs/datasource.md

+12-2
Original file line numberDiff line numberDiff line change
@@ -18,6 +18,7 @@
1818
\<bucket\> 名称或者 \<path\>-result 来创建目录。**
1919

2020
### 1 公共参数
21+
> config.txt
2122
```
2223
path=
2324
unit-len=
@@ -31,6 +32,8 @@ indexes=key,etag,fsize
3132
|threads| 整型数| 表示预期最大线程数,若实际得到的文件数或列举前缀数小于该值时以实际数目为准|
3233
|indexes| 字符串列表| 资源元信息字段索引(下标),设置输入行对应的元信息字段下标|
3334

35+
运行参数:`-config=config.txt`
36+
3437
**备注:** indexes、unit-len、threads 均有默认值非必填,indexes 说明及默认值参考下述[ indexes 索引](#关于-indexes-索引),unit-len 和
3538
threads 说明及默认值参考下述[并发处理](#关于并发处理 ),建议根据需要优化参数配置。
3639

@@ -104,6 +107,7 @@ indexes 的设置通常采用第一种方式,即 `indexes=pre-<个数>`,如
104107
本地文件数据源分为**两种情况:(1)读取文件内容为数据列表按行输入(2)读取路径下的文件本身,包括目录遍历,得到文件信息作为输入**
105108
### 2.1 文本文件行读取
106109
文件内容为资源列表,可按行读取输入文件的内容获取资源列表,文件行解析参数如下:
110+
> config.txt
107111
```
108112
parse=tab/json
109113
separator=\t
@@ -123,7 +127,9 @@ uri-config=
123127
|add-keyPrefix| 字符串|将解析出的 key 字段加上指定前缀再进行后续操作,用于输入 key 可能比实际空间的 key 少了前缀的情况,补上前缀才能获取到资源|
124128
|rm-keyPrefix| 字符串|将解析出的 key 字段去除指定前缀再进行后续操作,用于输入 key 可能比实际空间的 key 多了前缀的情况,如输入行中的文件名多了 `/` 前缀|
125129
|uris| 字符串|数据源路径下需要读取的文件名列表,如果只想处理部分文件,可使用参数设置列表的方式,以 `,` 号分割文件名,不设置默认读取 path 下全部文本文件|
126-
|uri-config| 配置文件路径|表示从该配置中读取文件名作为 file 数据源,同时文件名对应的值表示读取该文件的起始位置,配置文件格式为 json,可参考[ uri-config 配置](#关于-uri-config)|
130+
|uri-config| 配置文件路径|配置文件格式为 json,表示 file 数据源中各列表的位置信息,文件名对应的值表示读取该文件的起始位置,可参考[ uri-config 配置](#关于-uri-config)|
131+
132+
运行参数:`-config=config.txt`
127133

128134
#### 关于 parse
129135
数据源输入的文件列表为每行一条数据,parse 决定了数据的解析方式以及索引的设置方式,以下做简单举例说明,关于具体的其他索引设置参考对应 process 的文档。
@@ -200,6 +206,7 @@ directory-config 中的目录名可以采取相对 path 路径下的目录名。
200206
|value| 表示数据源中某一行的内容,如 "qiniu_success_1.txt" 表示 "/Users/wubingheng/Projects/Github/test" 目录中可能存在该文件名|
201207

202208
### 3 storage 云存储列举
209+
> config.txt
203210
```
204211
<密钥配置>
205212
region=
@@ -223,6 +230,8 @@ prefix-right=
223230
|prefix-left| true/false| 当设置多个前缀时,可选择是否列举所有前缀 ASCII 顺序之前的文件|
224231
|prefix-right| true/false| 当设置多个前缀时,可选择是否列举所有前缀 ASCII 顺序之后的文件|
225232

233+
运行参数:`-config=config.txt`
234+
226235
支持从不同的云存储上列举出空间文件,默认线程数(threads 参数)为 50,千万以内文件数量可以不增加线程,数据源路径等公共参数参考[公共参数配置](#1-公共参数)
227236
通常云存储空间列举的必须参数包括密钥、空间名(通过 path 或 bucket 设置)及空间所在区域(通过 region 设置,允许不设置的情况下表明支持自动查询),各数
228237
据源配置参数如下:
@@ -312,7 +321,8 @@ threads 小于等于 100,100 万左右及以下的文件数量设置 threads
312321
```
313322

314323
## 数据源示例
315-
如果已设置账号,则不需要再直接设置密钥,可以通过 `-a=<account-name>`/`-d` 来读取账号,参考:[账号设置](../README.md#账号设置)
324+
1、如果已设置账号,则不需要再直接设置密钥,可以通过 `-a=<account-name>`/`-d` 来读取账号,参考:[账号设置](../README.md#账号设置)
325+
2、如果使用配置文件的方式,假设配置文件名为 `config.txt`,则运行参数为:`-config=config.txt`
316326

317327
### 1 七牛云存储
318328
命令行参数示例:

docs/delete.md

+8-1
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,9 @@
88
4. 交互式操作随时输入 key 进行删除请参考[ interactive 操作](interactive.md)
99

1010
## 配置
11+
> config.txt
1112
```
13+
path=
1214
process=delete
1315
ak=
1416
sk=
@@ -22,7 +24,12 @@ indexes=
2224
|bucket| 字符串| 操作的资源所在空间,当数据源为 qiniu 时无需再设置|
2325
|indexes|字符串| 设置输入行中 key 字段的下标(有默认值),参考[数据源 indexes 设置](datasource.md#1-公共参数)|
2426

27+
运行参数:`-config=config.txt`
28+
2529
### 命令行方式
2630
```
27-
-process=delete -ak= -sk= -bucket=
31+
-path= -process=delete -ak= -sk= -bucket=
2832
```
33+
34+
## 备注
35+
delete 是个高危操作,只有 bucket 参数的情况下会导致整个空间的文件被删除,请注意设置过滤条件,在正式执行前会有确认提示,请确认参数是否正确,谨慎操作!

docs/domainsofbucket.md

+14-4
Original file line numberDiff line numberDiff line change
@@ -1,20 +1,22 @@
11
# 查询域名
22

33
## 简介
4-
查询存储空间绑定的域名。该操作是一个以单次运行为主的简单操作,目的是无需登录控制台即可拿到空间绑定的域名,以便做一些其他需要 domain 参数的操作,如导
5-
url 等。
4+
查询存储空间绑定的域名。该操作是一个以单次运行为主的简单操作,目的是无需登录控制台即可拿到空间绑定的域名,包括以存储空间作为源站的 CDN 域名,以便做一
5+
些其他需要 domain 参数的操作,如导出 url 等。
66

77
1. 支持通过 `-a=<account-name>`/`-d` 使用已设置的账号,则不需要再直接设置密钥,参考:[账号设置](../README.md#账号设置)
88

99
## 使用方式
10+
#### 查询单个 bucket 的域名
1011
运行参数:
1112
```
12-
domainsfrom=<bucket> ak=<ak> sk=<sk>
13+
-domainsfrom=<bucket> -ak=<ak> -sk=<sk>
1314
```
1415
如使用 qsuits 执行器时:`qsuits -domainsfrom=temp -ak=xxx -sk=xxx`,ak、sk 是必须的要用于七牛鉴权,也可以使用 account 的方式来查询,如:
1516
`qsuits -domainsfrom=temp -a=myself`,会输出对应账号下 temp 空间绑定的所有域名。
1617

17-
另外,该操作其实也支持批量查询很多空间的绑定域名,但一般不需要这样做,如果希望这样做的话数据源**只能使用本地的文件列表**,即多个 bucket 名称以换行
18+
#### 批量查询 bucket 的域名
19+
该操作其实也支持批量查询很多空间的绑定域名,但一般不需要这样做,如果希望这样做的话数据源**只能使用本地的文件列表**,即多个 bucket 名称以换行
1820
形式存在于 text 文件列表中,如 bucket 列表:
1921
```
2022
temp1
@@ -25,9 +27,17 @@ temp5
2527
```
2628
列表文件名为 buckets.txt,那么可以使用如下配置:
2729
```
30+
path=buckets.txt
2831
process=domainsofbucket
2932
ak=
3033
sk=
3134
```
3235
同样 ak、sk 也可以使用 account 的方式。如果是运行交互式的命令行依次查询多个 bucket,则命令行加上 `-i` 参数即可,然后输入一个 bucket 名回车一
3336
次,即可依次查询输入 bucket 的域名。
37+
38+
运行参数:`-config=config.txt`
39+
40+
### 命令行方式
41+
```
42+
-path= -process=domainsofbucket -ak= -sk=
43+
```

0 commit comments

Comments
 (0)