Skip to content

Latest commit

 

History

History
47 lines (23 loc) · 736 Bytes

README.md

File metadata and controls

47 lines (23 loc) · 736 Bytes

gen_data

数据生成

gen_ocr_data1主要步骤

1.遍历字体集合

2.遍历字符集合

3.遍历旋转角度

4.文字转图片存储

gen_ocr_data2主要步骤

一、生成汉字与label的对应表

二、收集字体文件

三、文字图像生成

1.确定你要生成多少字体,生成一个记录着汉字与label的对应表。

2.确定和收集需要用到的字体文件。

3.生成字体图像,存储在规定的目录下。

4.适当的数据增强。

图像增强工作有这些:

1.文字扭曲

2.背景噪声(椒盐)

3.文字位置(设置文字的中心点)

4.笔画粘连(膨胀来模拟)

5.笔画断裂(腐蚀来模拟)

6.文字倾斜(文字旋转)

7.多种字体