์ถํ๋ฌผ ์ ์ ์ ๋ฌด๋ฅผ ๋๋ ๋ช ๋ นํ ์คํฌ๋ฆฝํธ๋ค์ ๋๋ค.
-
ํ๊ตญ์ด ์๊ณ ๊ต์
- correct.py : ๋ง์ถค๋ฒ๊ณผ ๋ฌธ์ฒด ๊ฒ์ฌ
- spellchk.py : ๋ง์ถค๋ฒ ๊ฒ์ฌ
- stylechk.py : ๋ฌธ์ฒด ๊ฒ์ฌ
-
ํ๊ตญ์ด ๋์๋ฒ
- hae.py : ํด์ฒด๋ก ๋ณํ
- haera.py : ํด๋ผ์ฒด๋ก ๋ณํ
- haeyo.py : ํด์์ฒด๋ก ๋ณํ
- hasipsio.py : ํ์ญ์์ค์ฒด๋ก ๋ณํ
-
์ธ๋์ด/์ธ๊ตญ์ด
-
๋ง์ดํฌ๋ก์ํํธ ์๋
- doc2docx.py : doc ํ์ผ์ docx ํ์ผ๋ก ์ผ๊ด ๋ณํ (Windows ์ ์ฉ)
- exfigs.py : docx ํ์ผ์์ ์ด๋ฏธ์ง ํ์ผ์ ์ผ๊ด ์ถ์ถ
- openall.py : ํ์ฌ ๊ฒฝ๋ก์ ๋ชจ๋ docx ํ์ผ์ ์ด๊ธฐ (Windows ์ ์ฉ)
- pgcnt.py: docx ํ์ผ์ ํ์ด์ง ์ ์ธ๊ธฐ
- termlist.py : docx ํ์ผ์ ๊ตญ์๋ฌธ ๋ณ๊ธฐ๋ ์ฉ์ด์ ๋ชฉ๋ก์ ์ถ๋ ฅ
-
ํ์ผ ๊ด๋ฆฌ
- mvfig.py : ๊ทธ๋ฆผ ํ์ผ๋ช ์ผ๊ด ๋ณ๊ฒฝ
-
PDF
- pdf_merge.py : PDF ํ์ผ ๋ณํฉ
- pdf2docx.py : PDF ํ์ผ์ docx ํ์ผ๋ก ๋ณํ
- pdftotext.py : PDF ํ์ผ์ txt ํ์ผ๋ก ๋ณํ
- searchable.py : ๊ฒ์ ๊ฐ๋ฅํ PDF ํ์ผ์ ์์ฑ
-
์น
- yes24.py : ์์ค24 ๋์ ๊ฒ์
- yesblog.py : YES ๋ธ๋ก๊ทธ ๋ณธ๋ฌธ ์ถ์ถ
- wikidocs.py : ์ํค๋ ์ค ์ฑ ์ ๋ชฉ์ฐจ ๋ฐ ๋ณธ๋ฌธ ์ถ์ถ
- wikipedia.py : ์ํค๋ฐฑ๊ณผ์ ๋ณธ๋ฌธ ์ถ์ถ
-
๋ฒ์ญ
- fakemt.py : OmegaT์ฉ MT
-
๊ธฐํ
- sort.py : ์ ๋ ฅ๋ฐ์ ํ๋ค์ ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌํ์ฌ ์ถ๋ ฅ
ํ:
์๊ณ (docx ํ์ผ)์์ ๊ท์น์ ์ค์ํ๋์ง ๊ฒ์ฌํฉ๋๋ค.
๊ด๋ จ ํ์ผ:
- ๋ง์ถค๋ฒ: ko_spelling_rules.json
- ๋์ด์ฐ๊ธฐ: ko_spacing_rules.json
- ์ธ๋์ด ํ๊ธฐ๋ฒ: foreign_sound_rules.json
- ์ํ ๋ฒ์ญํฌ: en_ko_style_correction.json
- ์ผํ ๋ฒ์ญํฌ: ja_ko_style_correction.json
- ์ํค๋ถ์ค ๊ธ์ฐ๊ธฐ ์ง์นจ: wikibook_style_guide.json
- ๊ฐ๊ฒฐํ ๊ธ์ฐ๊ธฐ: simple_style.json
- ์ฌ์ : dic.txt
์๊ตฌ์ฌํญ:
- docx ํ์ผ์ ๊ฒ์ฌํ๋ ค๋ฉด docx2txt๋ฅผ ์ค์น(
pip install docx2txt) - PDF ํ์ผ์ ๊ฒ์ฌํ๋ ค๋ฉด Xpdf ๋ช ๋ นํ ๋๊ตฌ๋ฅผ ์ค์น
- HWP ํ์ผ์ ๊ฒ์ฌํ๋ ค๋ฉด
pip3 install pyhwphwp5txt๋ฅผ ์คํํ ์ ์๊ฒ PATH ํ๊ฒฝ๋ณ์์ ๊ฒฝ๋ก๋ฅผ ๋ฑ๋ก- ๋งฅ ํ๊ฒฝ์ https://blog.naver.com/yoonsweety/221451960610 ์ฐธ๊ณ
- ํ์ฌ ๊ฒ์ฌ ๊ธฐ๋ฅ์ ์ด์ฉํ๋ ค๋ฉด
pip3 install --force-reinstall git+git://github.com/ychoi-kr/konlpy.git
์ฌ์ฉ๋ฒ:
์๋์ฒ๋ผ ํด๋ ๋๊ณ ,
cd <์๊ณ ๊ฐ ์๋ ํด๋>
python3 correct.py "Mastering_PyTorch_ํธ์ง๋ณธ_20211104.docx"
ํ์ด์ฌ ์คํฌ๋ฆฝํธ๊ฐ ์๋ ์คํ ๊ฐ๋ฅํ ํ๊ฒฝ์์๋ ๋ค์๊ณผ ๊ฐ์ด ํ ์ ์์ต๋๋ค.
correct "Mastering_PyTorch_ํธ์ง๋ณธ_20211104.docx"
ํ์ผ์ด ์ด๋ ค ์์ผ๋ฉด ์ ๋๋ฏ๋ก ์๋ ํ์ผ์ ๋ซ๊ฑฐ๋ ์ฝ๊ธฐ ์ ์ฉ์ผ๋ก ๋ฐ๊พผ ํ ์คํํด์ผ ํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๋น์ทํ๊ฒ ๋์ต๋๋ค.
* ์ด๋ณด์๊ฐ ์ ๋ฌธ๊ฐ๋ก ์ฑ์ฅํ๊ธฐ ์ํด ํ์ฉํ ์ ์๋ ์์์ ๋ฌดํํ ๋ง๋ค.
^
=> ~๊ธฐ ์ํด ํ์ฉํ โ ~๋ ๋ฐ ํ์ฉํ (rule204_-์ํด)
* ์๊ทธ๋ชจ์ด๋์๋ ๋ค๋ฅด๊ฒ TanH ํ์ฑํ ํจ์์ ๊ฒฝ์ฐ ์ถ๋ ฅ๊ฐ ๋ -1๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ๋๋ค.
^
=> ~์ ๊ฐ๋๋ค โ ~์ด ์๋ค (rule213_์์ด์ have์์ ๋น๋กฏ๋ '๊ฐ์ง๋ค')
(์๋ต)
* ์ฌ๊ธฐ์๋ ํ๊ธฐ์ฒด ์ซ์ ๋ถ๋ฅ๊ธฐ๋ฅผ ํ๋ จ์ํค๋ ๋น์ทํ ์ค์ต์ ํ๋ค.
^
=> ~์ ํ๋ค (rule105_๋ถํ์ํ ์กฐ์ฌ๋ฅผ ๋บ๋ค : ์คํ์ ํ๋ค โ ์คํํ๋ค, ๋์
์ ํ๋ค โ ๋์
ํ๋ค, ์ปดํ์ผ์ด ๋์ง๋ง โ ์ปดํ์ผ๋์ง๋ง)
=== Summary ===
rule002_๋ค์ด๋ก๋ํ๋ค ==> count: 1
rule101_๊ฐ๊ฒฐํ๊ฒ ์ด๋ค ==> count: 1
rule102_๋๋๋ก ์๋ํ ํํ์ด๋ ์ฌ์ญํ ํํ์ ์ฐ์ง ์๋๋ค ==> count: 9
rule103_๊ฐ๊ธ์ ์ฌ์ด ํํ์ ์ด๋ค ==> count: 51
...
rule222_๊ฐ๊ฐ์ ==> count: 4
rule224_์๋ตํด์ผ ํ๋ ํํ ==> count: 17
ํ์ค ์ ๋ ฅ์ ๋ฐ์์ ๊ต์ ํ ์ ์์ต๋๋ค.
$ echo "ํ๋ก๊ทธ๋๋ฐ์ด ๋ญ๋๊ตฌ์? ์ํํธ์จ์ด๋ฅผ ๋ง๋๋ ๊ฒ์ด ํ๋ก๊ทธ๋๋ฐ์
๋๋ค. ๊ทธ๋ฆฌ๊ณ , ์ปดํจํฐ๊ฐ ์์๋ฃ๋ ๋ง์ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ผ๊ณ ํ์ง์." | correct.py
ํ๋ก๊ทธ๋๋ฐ์ด ๋ญ๋๊ตฌ์?
^
=> ๋ญ๋๊ตฌ์? โ ๋ญ๋๊ณ ์? (spel2000_๊ตญ์ด์ ์ค์ฉ ์ฌ๋ก ๋ชจ์ - ์ด๋ฌธ ๊ท๋ฒ ์ค์ ์คํ ์กฐ์ฌ(์๋๋์), 2001 : https://www.korean.go.kr/front/etcData/etcDataView.do?mn_id=46&etc_seq=52&pageIndex=50)
๊ทธ๋ฆฌ๊ณ , ์ปดํจํฐ๊ฐ ์์๋ฃ๋ ๋ง์ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ผ๊ณ ํ์ง์.
^
=> ๊ทธ๋ฆฌ๊ณ , โ ๊ทธ๋ฆฌ๊ณ (0079918_์ผํ, ๋ฐ์ : https://wikidocs.net/79918)
ํ:
- ์คํ ๊ฒฐ๊ณผ๋ฅผ ํ์ผ๋ก ์ ์ฅํ๋ ค๋ฉด ๋ฆฌ๋ค์ด๋ ์
์ ์ด์ฉํ๋ฉด ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด,
python3 correct.py > report๋ฅผ ์คํํ๋ฉดreportํ์ผ์ ํ ์คํธ๋ก ์ ์ฅ๋๊ณ , ๋ฉ๋ชจ์ฅ์ผ๋ก ์ด ์ ์์ต๋๋ค. - ์๋ ํ์ผ์ ํธ์ง ์ค์ผ ๋ ๋ค๋ฅธ ํ๋ก๊ทธ๋จ์์ ๋์์ ์ด ์ ์์ง๋ง, ๋ค๋ฅธ ์ปดํจํฐ์์ OneDrive๋ก ๋๊ธฐํ๋ ํ์ผ์ ์ด ์๋ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ปดํจํฐ๊ฐ ๋ ๋ ์๋ค๋ฉด ํ ๋๋ก๋
python3 correct.py | more๋ก ํ์ธํ๋ฉด์ ๋ค๋ฅธ ์ปดํจํฐ๋ก ์๋ ํ์ผ์ ํธ์งํ๋ ์์ผ๋ก ์์ ํ ์ ์์ต๋๋ค. correct.py๋ก ๋ชจ๋ ๊ฒ์ฌ๋ฅผ ํ ๋ฒ์ ํด๋ ๋์ง๋ง,spellchk.py๋ก ๋ง์ถค๋ฒ์ ๊ฒ์ฌํด์ ์์ ํ ํstylechk.py๋ก ๋ฌธ์ฒด๋ฅผ ๊ฒ์ฌํ๋ฉด ๋ ์ข์ต๋๋ค.- find ๋ช ๋ น์ผ๋ก ์ฌ๋ฌ ๊ฐ์ ํ์ผ์ ๊ฒ์ฌ
ํ์ฌ ์์ ๋๋ ํฐ๋ฆฌ์ ์๋ ๋ชจ๋ doc ํ์ผ์ ๋ํ์ฌ docx ํฌ๋งท์ ์ฌ๋ณธ์ ๋ง๋ญ๋๋ค.
์ฌ์ฉ๋ฒ:
python doc2docx.py
.docx ํ์ผ์ ์ฝ์
๋ ๊ทธ๋ฆผ ํ์ผ์ ์ถ์ถํฉ๋๋ค. ์๋ ๋ฌธ์์ ์ค๋ช
ํ ์์
์ ์๋ํํ ๊ฒ์
๋๋ค.
OmegaT FakeMT Plugin ์๋ฒ์ ๋๋ค. ์์ฒญ ๋ฐ์ ํ ์คํธ๋ฅผ ๊ตฌ๊ธ ๋ฒ์ญ์ผ๋ก ๋ณด๋ธ ํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์์ ํด๋ผ์ฒด๋ก ๋ฐ๊ฟ ์๋ตํฉ๋๋ค. OmegaT๊ฐ ์ค์น๋์ด ์์ด์ผ ํ๊ณ OmegaT FakeMT ํ๋ฌ๊ทธ์ธ๋ ์ค์น ๋ฐ ์ค์ ํด์ผ ํฉ๋๋ค.
์คํ:
python3 fakemt.py
ํ ์คํธ๋ฅผ ์ ๋ ฅ๋ฐ์์ ํด์ฒด๋ก ๋ฐ๊ฟ์ค๋๋ค.
ํ ์คํธ๋ฅผ ์ ๋ ฅ๋ฐ์์ ํด๋ผ์ฒด๋ก ๋ฐ๊ฟ์ค๋๋ค.
haera๋ฅผ ์คํํ ๋ค ํ
์คํธ๋ฅผ ์
๋ ฅํ๊ณ ์ํฐ ํค๋ฅผ ๋๋ฅด๋ฉด ๋ณํ ๊ฒฐ๊ณผ๊ฐ ์ถ๋ ฅ๋ฉ๋๋ค.
์:
$ haera
ROC ๊ณก์ ์ ์ด์์ ์ธ ๋ชจ๋ธ์์๋ ์ด์ฒ๋ผ ์์ ์์ ์์ง์ผ๋ก ๋์์ง๊ณ ์ฌํ์จ์ด 1์ ๋๋ฌํ ํ์ ์ํ์ผ๋ก ๋ณํํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ ๋ต๋ฅ ์ด 100%๊ฐ ์๋ (์ผ๋ฐ์ ์ธ) ๋ชจ๋ธ์์๋ ๊ณก์ ์ด ์ค๋ฅธ์ชฝ ์๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํฉ๋๋ค. ์ด๋ ๊ฒ ์ด๋ํ๋ ์ ๋๋ฅผ ์ ๋ํํ๊ธฐ ์ํด ๊ณก์ ์๋์ชฝ ๋ฉด์ ์ ๊ณ์ฐํด์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ธ์ ํ๊ฐ์งํ๋ก ์ด์ฉํฉ๋๋ค. ์ด๊ฒ์ AUC(area under the curve)๋ผ๊ณ ๋งํฉ๋๋ค. - ใ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๋ฆฌ ๋ชจ๋ธ ์
๋ฌธใ
ROC ๊ณก์ ์ ์ด์์ ์ธ ๋ชจ๋ธ์์๋ ์ด์ฒ๋ผ ์์ ์์ ์์ง์ผ๋ก ๋์์ง๊ณ ์ฌํ์จ์ด 1์ ๋๋ฌํ ํ์ ์ํ์ผ๋ก ๋ณํํ๋ค. ๊ทธ๋ฌ๋ ์ ๋ต๋ฅ ์ด 100%๊ฐ ์๋ (์ผ๋ฐ์ ์ธ) ๋ชจ๋ธ์์๋ ๊ณก์ ์ด ์ค๋ฅธ์ชฝ ์๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค. ์ด๋ ๊ฒ ์ด๋ํ๋ ์ ๋๋ฅผ ์ ๋ํํ๊ธฐ ์ํด ๊ณก์ ์๋์ชฝ ๋ฉด์ ์ ๊ณ์ฐํด์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ธ์ ํ๊ฐ์งํ๋ก ์ด์ฉํ๋ค. ์ด๊ฒ์ AUC(area under the curve)๋ผ๊ณ ๋งํ๋ค. - ใ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๋ฆฌ ๋ชจ๋ธ ์
๋ฌธใ
ํ ์คํธ๋ฅผ ์ ๋ ฅ๋ฐ์์ ํด์์ฒด๋ก ๋ฐ๊ฟ์ค๋๋ค.
ํ ์คํธ๋ฅผ ์ ๋ ฅ๋ฐ์์ ํ์ญ์์ค์ฒด๋ก ๋ฐ๊ฟ์ค๋๋ค.
๊ทธ๋ฆผ ํ์ผ๋ค์ ํ์ผ๋ช ์ ์ผ๊ด ๋ณ๊ฒฝํฉ๋๋ค.
๋ณ๊ฒฝ ์ ํ์ผ๋ช
๊ณผ ๋ณ๊ฒฝ ํ ํ์ผ๋ช
์ ๋์ดํ๋ Tab-Separated Values ํ์ผ์ธ fig_list.tsv๋ฅผ ์์ฑํด์ผ ํฉ๋๋ค.
์:
$ cat fig_list.tsv
image1 ๊ทธ๋ฆผ 1.1 ๊ฐ์ธ, ๊ธฐ๊ด, ์ธ๊ตญ์ธ ์ฃผ์ํฌ์ ์์ต๋ฅ ๋น๊ต
image2 ๊ทธ๋ฆผ 1.2 ๊ฐ์ธํฌ์์ 1์ธ๋น ๋ณด์ ์ข
๋ชฉ ์
fig_list.tsv์ ๊ฐ ํ์ ๋ํ์ฌ, ์ฒซ ๋ฒ์งธ ์ด์ ์ด๋ฆ์ ๋ ๋ฒ์งธ ์ด์ ์ด๋ฆ์ผ๋ก ๋ฐ๊ฟ๋๋ค. ํ์ฅ์๋ ๊ธฐ์กด ํ์ผ์ ๊ฒ์ด ์ ์ง๋ฉ๋๋ค.
์คํ ์:
$ ls
fig_list.tsv image1.png image2.jpg mvfig.py
$ python mvfig.py
$ ls
fig_list.tsv '๊ทธ๋ฆผ 1.1 ๊ฐ์ธ, ๊ธฐ๊ด, ์ธ๊ตญ์ธ ์ฃผ์ํฌ์ ์์ต๋ฅ ๋น๊ต.png' '๊ทธ๋ฆผ 1.2 ๊ฐ์ธํฌ์์ 1์ธ๋น ๋ณด์ ์ข
๋ชฉ ์.jpg' mvfig.py
ํ์ฌ ์์น์ docx ํ์ผ์ ๋ชจ๋ ์ฝ๋๋ค. Windows ์ ์ฉ์
๋๋ค.
์๊ตฌ์ฌํญ:
pip install pywin32
์ฌ์ฉ๋ฒ:
py openall.py: ํ์ฌ ์์ ํด๋์docxํ์ผ์ ๋ชจ๋ ์ฝ๋๋ค.py openall.py -R: ํ์ฌ ์์ ํด๋ ๋ฐ ํ์ ํด๋์docxํ์ผ์ ๋ชจ๋ ์ฝ๋๋ค.
์์ด ์๋ํ ๋ฌธ์ฅ์ ๋ฅ๋ํ๋ก ๋ณํํฉ๋๋ค.
์๋ ์ ์ฅ์์์ ์ฝ๋๋ฅผ ๊ฐ์ ธ์จ ๋ค ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ ๋ถ๋ถ๋ง ์์ ํ์ต๋๋ค.
์๊ตฌ์ฌํญ:
์ฌ์ฉํ๋ ค๋ฉด spacy๋ฅผ ์ค์นํด์ผ ํฉ๋๋ค.
pip install spacy
์ฌ์ฉ๋ฒ:
p2a๋ฅผ ์คํํ ๋ค ์๋ํ ๋ฌธ์ฅ์ ์
๋ ฅํ๋ฉด ๋ฅ๋ํ ๋ฌธ์ฅ์ด ์ถ๋ ฅ๋๋ฉฐ, q๋ฅผ ์
๋ ฅํ๋ฉด ์ข
๋ฃํฉ๋๋ค.
$ p2a
The book is written by myself.
Myself wrote the book.
A policy of whitewashing and cover-up has been pursed by the CIA director and his close advisors.
The CIA director and his close advisors has pursed a policy of whitewashing and cover-up.
q
๋ฅ๋ํ์ ์ฃผ์ด์ ํด๋นํ๋ ์ ์ด ์์ด์ผ ๋ณํ ๊ฐ๋ฅํฉ๋๋ค.
Mistakes were made.
Mistakes were made.
Mistakes were made by us.
We made mistakes.
๊ฐ์ ์ด๋ฆ์ผ๋ก ์์ํ๋ PDF ํ์ผ๋ค์ ํ๋๋ก ํฉ์นฉ๋๋ค.
์๊ตฌ์ฌํญ:
pip install PyPDF2
์ฌ์ฉ๋ฒ:
python pdf_merge.py [directory] bookname`
directory ์ธ์๋ก ์ง์ ํ ์ด๋ฆ(๊ธฐ๋ณธ๊ฐ: merged)์ ์๋ธ๋๋ ํฐ๋ฆฌ๊ฐ ๋ง๋ค์ด์ง๊ณ ๊ทธ๊ณณ์ ๋ณํฉ๋ PDF ํ์ผ์ด ๋ง๋ค์ด์ง๋๋ค.
์:
python d:\GitHub\sk8erchoi\ko-prfrdr\pdf_merge.py "Mastering PyTorch_์ต์ข
์ธ์์ฉ_0125"
PDF ๋ฌธ์๋ฅผ docx๋ก ๋ณํํ๋ pdf2docx๋ฅผ ํธ์ถํฉ๋๋ค.
์๊ตฌ์ฌํญ:
pip install pdf2docx
์ฌ์ฉ๋ฒ:
pdf2docx <ํ์ผ๋ช
>
PDF์์ ํ ์คํธ๋ฅผ ์ถ์ถํ๋ pdftotext๋ฅผ ์ข ๋ ํธ๋ฆฌํ๊ฒ ์ฌ์ฉํ ์ ์๊ฒ ํด์ฃผ๋ ์คํฌ๋ฆฝํธ์ ๋๋ค.
์ฃผ์ ๊ธฐ๋ฅ:
- ํ์ด์ง ๋ฒํธ ๋ถ๋ถ์ ์ ์ธํ ๋ณธ๋ฌธ ์์ญ์ ํ ์คํธ๋ฅผ ์ถ์ถ
- ์ค๋ฐ๊ฟ๊ณผ ํ์ดํ ์ญ์ (์์ด๋ง ๋จ)
- ์ํธํ๋ ํ์ผ ์ด๊ธฐ(์ฌ์ฉ์ ์ํธ๋ฅผ ์ ๋ ฅํด์ผ ํจ)
- ํ์ด์ง๋ณ ์ฌ์ด์ฆ๊ฐ ๋ค๋ฅด๊ฑฐ๋ ์๋ฉด์ผ๋ก ๋ ํ์ผ์์๋ ๋ด์ฉ ์ถ์ถ
์๊ตฌ ์ฌํญ:
- ๊ณตํต ์๊ตฌ์ฌํญ์ ์ถฉ์กฑ
- Xpdf ๋ช ๋ นํ ๋๊ตฌ๋ฅผ ์ค์น
- pikepdf๋ฅผ ์ค์น
์ฌ์ฉ๋ฒ:
์๋ ๋ช ๋ น์ ์คํํ๋ฉด PDF์ ๊ฐ์ ์ด๋ฆ์ txt ํ์ผ์ด ์์ฑ๋ฉ๋๋ค.
python pdftotext.py [์ต์
] "<PDF ํ์ผ๋ช
>"
--password "<ํจ์ค์๋>": ์ฌ์ฉ์ ํจ์ค์๋๊ฐ ๊ฑธ๋ฆฐ ํ์ผ์ ํ ๋ ์ด ์ต์ ์ ์ฌ์ฉํฉ๋๋ค.--header <์ซ์>: ๋จธ๋ฆฌ๋ง ์ฌ๋ฐฑ์ ๋์ด๋ฅผ ์ง์ ํฉ๋๋ค(๊ธฐ๋ณธ๊ฐ์ 50). ๋ณธ๋ฌธ ์์ชฝ์ด ์๋ฆฌ๊ฑฐ๋ ๋จธ๋ฆฌ๋ง์ด ์ ์ธ๋์ง ์์ ๊ฒฝ์ฐ ์ด ์ต์ ์ ์กฐ์ ํฉ๋๋ค.--footer <์ซ์>: ๊ผฌ๋ฆฌ๋ง ์ฌ๋ฐฑ์ ๋์ด๋ฅผ ์ง์ ํฉ๋๋ค(๊ธฐ๋ณธ๊ฐ์ 60). ๋ณธ๋ฌธ ์๋์ชฝ์ด ์๋ฆฌ๊ฑฐ๋ ๊ผฌ๋ฆฌ๋ง์ด ์ ์ธ๋์ง ์์ ๊ฒฝ์ฐ ์ด ์ต์ ์ ์กฐ์ ํฉ๋๋ค.
์ด์:
- ๊ตญ์ด ๋ฌธ์ฅ์ ์ค๋ฐ๊ฟ์ ์ญ์ ํ ๋ ๋ฌด์กฐ๊ฑด ๊ณต๋ฐฑ์ ์ถ๊ฐํ๊ฒ ๋์ด ์์
- ํ์ด์ง ๋ฒํธ๊ฐ ์์ชฝ์ ์๋ ๊ฒ
- ํ์ด์ง ๋ด์ ๋ค๋จ์ผ๋ก ํธ์ง๋ ๊ฒ์ ์ธ์ํ์ง ๋ชปํจ
ํ:
- ์ ์ ๋ ๊ฒฝ์ฐ ์๋ฌธ์๋ง์ผ๋ก ์ด๋ค์ง ๊ฐ๋จํ ํ์ผ๋ช ์ผ๋ก PDF ํ์ผ์ ๋ณต์ฌํด์ ์๋ํด๋ณด์๊ธฐ ๋ฐ๋๋๋ค.
- ์ด ์คํฌ๋ฆฝํธ ์์ด
pdftotext.exe๋ง์ผ๋ก๋ ํ ์คํธ๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค.
ํ์ฌ ๋๋ ํฐ๋ฆฌ์ ์๋ docx ๋ฌธ์๋ค์ ํ์ด์ง ์๋ฅผ ์ ๋๋ค. (Windows ์ ์ฉ)
์๊ตฌ์ฌํญ:
pip install natsort
์ฌ์ฉ๋ฒ:
$ python pgcnt.py "์๋ ํ์ผ๋ช
" # ํน์ ํ์ผ์ ํ์ด์ง ์ ์ถ๋ ฅ
$ python pgcnt.py # ํ์ฌ ํด๋ ๋ด ๋ชจ๋ ์๋ ํ์ผ์ ํ์ด์ง ์ ์ถ๋ ฅ
์:
> python pgcnt.py
1~2์ฅ.doc 63 63
3์ฅ.doc 44 107
4์ฅ.doc 32 139
5์ฅ.doc 54 193
6์ฅ.doc 79 272
7์ฅ.doc 35 307
8์ฅ.doc 53 360
9์ฅ.doc 83 443
10์ฅ.doc 77 520
์ค๊ตญ์ด ๋ณ์(Pinyin)์ ์ ๋ ฅํ๋ฉด ํ๊ตญ์ด ํ๊ธฐ๋ก ๋ฐ๊ฟ์ค๋๋ค.
์ฌ์ฉ๋ฒ:
$ python pyko.py
Zhลngguรณ
์ค๊ถ
์ค์บํด์ ๋ง๋ค์ด์ง PDF ํ์ผ๋ก๋ถํฐ ๊ฒ์ ๊ฐ๋ฅํ PDF ํ์ผ์ ์์ฑํฉ๋๋ค. ํ๊ธ ์ธ์์ด ์ ์ ๋ฉ๋๋ค.
์๊ตฌ์ฌํญ:
- Xpdf ๋ช ๋ นํ ๋๊ตฌ ์ค์น
- Tesseract ์ ์
pip install pytesseract numpy opencv-python PyPDF2 pdf2image
์ด์:
- ๊ธ์ ์ฌ์ด์ ๋ถํ์ํ ๊ณต๋ฐฑ์ด ๋ค์ด๊ฐ์ ๊ฒ์ ๊ธฐ๋ฅ์ ํ์ฉํ๋ ๋ฐ ์ง์ฅ ์์.
ํ ์คํธ ํ์ผ์ ํ์ ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌํฉ๋๋ค.
>type glossary.txt
banana ๋ฐ๋๋
orange ์ค๋ ์ง
apple ์ฌ๊ณผ
>sort.py glossary.txt
>type glossary.txt
apple ์ฌ๊ณผ
banana ๋ฐ๋๋
orange ์ค๋ ์ง
>
์๊ณ ์ ๋ง์ถค๋ฒ, ๋์ด์ฐ๊ธฐ, ์ธ๋์ด ํ๊ธฐ๋ฒ์ ๊ฒ์ฌํฉ๋๋ค.
์ฌ์ฉ ์:
$ spellchk.py sample.txt
Trying to import KoNLPy...
Loading rule file: ko_spelling_rules.json...
Loading rule file: ko_spacing_rules.json...
Loading rule file: foreign_sound_rules.json...
๋ค๋ง ๋ก๊ณ ์๋ ๋ฑ ๋๋ง๋ฆฌ๊ฐ ํ์ํ ๋์ด ์๋ค.
^
=> ํ์ํ ๋์ด โ ํ์ํ๋์ด (0067208a_-๋๋ค(์ ๋ฏธ์ฌ) : https://wikidocs.net/67208#a)
^
=> ๋๋ง๋ฆฌ๊ฐ โ ๋ ๋ง๋ฆฌ๊ฐ (0100750a2_๋จ์๋ฅผ ๋ํ๋ด๋ ๋ช
์ฌ : https://wikidocs.net/100750#a)
๊ฐ์ฒด ์งํฅ ํ๋ก๊ทธ๋๋ฐ๊ณผ ๊ตฌ์กฐ์ ํ๋ก๊ทธ๋๋ฐ์ ์๋ฒฝํ๊ฒ ์ง์ํ๋ฉฐ ํจ์ํ ํ๋ก๊ทธ๋๋ฐ, ๊ด์ ์งํฅ ํ๋ก๊ทธ๋๋ฐ ๋ฑ๋ ์ฃผ์ ๊ธฐ๋ฅ์์ ์ง์ ๋๋ค.
^
=> ์ง์ ๋๋ค โ ์ง์๋๋ค (0067208a_-๋๋ค(์ ๋ฏธ์ฌ) : https://wikidocs.net/67208#a)
ํ์ด์ฌ์ ์ด๋ฌํ ์๊ฒฉํ ์คํ์ผ ์ ํ์ ์ฐ๋ ์ฌ๋์ ๊ด๊ณ ์์ด ํต์ผ์ฑ์ ์ ์งํ๊ฒ ํ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ๊ฐ๋
์ฑ์ด ํฅ์๋ ์ ์๋ ์ฅ์ ์ด ์์ง๋ง, ๋ค๋ฅธ ํํธ์ผ๋ก๋ ํ๋ก๊ทธ๋จ์ ์ฐ๋ ์คํ์ผ์ ์ ํํ ์์ ๋ฅผ ์ ์ฝํ๋ ๊ฒ์ด๋ ์๊ฒฌ๋ ์๋ค.
^
=> ์ฌ๋์ ๊ด๊ณ ์์ด โ ์ฌ๋์ ๊ด๊ณ์์ด (0164399b_๊ด๊ณ ์๋ค / ๊ด๊ณ์๋ค, ๊ด๊ณ ์๋ค / ๊ด๊ณ์๋ค, ์๊ด ์๋ค / ์๊ด์๋ค, ์๊ด ์๋ค / ์๊ด์๋ค : https://wikidocs.net/0164399#b)
๋ค์๊ณผ ๊ฐ์ด ํ์ค๋ก ์์ฑํ์ฌ ํํํ๋ ๊ฒ์ 'pythonic ํ๋ค'๋ผ๊ณ ๋งํ ์ ์๋ค.
^
=> ํ์ค๋ก โ ํ ์ค๋ก (0100750a2_๋จ์๋ฅผ ๋ํ๋ด๋ ๋ช
์ฌ : https://wikidocs.net/100750#a)
์ด๋ฎคํฐ๋ธ(immutable) ๋ฐฉ์์ ์ง๋ฆฌ๊ฐ.
^
=> ์ง๋ฆฌ๊ฐ โ ์ง๋ฆฟ๊ฐ (0080784d_๊ฐ : https://wikidocs.net/80784#d)
Visual Studio Codeย : ํ์ด์ฌ ๋ฟ์ด ์๋๋ผ ๋๋ถ๋ถ์ ์ธ์ด๋ฅผ ์ง์ํ๋ค.
^
=> ํ์ด์ฌ ๋ฟ์ด โ ํ์ด์ฌ๋ฟ์ด (0079973a_-๋ฟ(์กฐ์ฌ) : https://wikidocs.net/79973#a)
์ํค๋ฏธ๋์ด ๊ณต์ฉ์ ๊ด๋ จ๋๋ฏธ๋์ด ๋ถ๋ฅ๊ฐ ์์ต๋๋ค.ํ์ด์ฌ
^
=> ์์ต๋๋ค.ํ์ด์ฌ โ ์์ต๋๋ค. ํ์ด์ฌ (0075024e_๋ง์นจํ์ ๋์ด์ฐ๊ธฐ : https://wikidocs.net/75024#e)
=== Summary ===
0067208a_-๋๋ค(์ ๋ฏธ์ฌ) ==> count: 2
0075024e_๋ง์นจํ์ ๋์ด์ฐ๊ธฐ ==> count: 1
0079973a_-๋ฟ(์กฐ์ฌ) ==> count: 1
0080784d_๊ฐ ==> count: 1
0100750a2_๋จ์๋ฅผ ๋ํ๋ด๋ ๋ช
์ฌ ==> count: 2
0164399b_๊ด๊ณ ์๋ค / ๊ด๊ณ์๋ค, ๊ด๊ณ ์๋ค / ๊ด๊ณ์๋ค, ์๊ด ์๋ค / ์๊ด์๋ค, ์๊ด ์๋ค / ์๊ด์๋ค ==> count: 1
์๊ณ ์ ์ํ ๋ฒ์ญํฌ, ์ผํ ๋ฒ์ญํฌ, ์ํค๋ถ์ค ๊ธ์ฐ๊ธฐ ์ง์นจ ์ค์ ์ฌ๋ถ๋ฅผ ๊ฒ์ฌํฉ๋๋ค.
์๊ณ ์์ ๊ตญ๋ฌธ(์๋ฌธ) ํ์์ผ๋ก ๋ณ๊ธฐํ ๋ถ๋ถ์ ์ฐพ์์ ์๋ฌธ ์ฉ์ด ๋ชฉ๋ก์ ์ถ๋ ฅํฉ๋๋ค.
์๊ตฌ์ฌํญ:
pip install docx2txt
์ฌ์ฉ๋ฒ:
$termchk
TERM COUNT
Atari 1
atomic 1
Automated Machine Learning 1
AutoML 1
auxiliary classifier 1
Azure 2
Azure Machine Learnin Service, AMLS 1
b 1
batch_size 1
Beam Search 1
Bernd Krueger 1
bias correction 1
Bibhuti Bhushan Jha 1
budget 1
CNN 2
์์ค24์์ ๊ตญ๋ด ๋์ ๋ชฉ๋ก์ ๊ฒ์ํฉ๋๋ค(e๋ถ ์ ์ธ).
์๊ตฌ์ฌํญ:
pip install beautifulsoup4
์ฌ์ฉ๋ฒ:
yes24.py [-h] [--order {์ธ๊ธฐ๋์,์ ํ๋์,์ ์ํ์,์ต์ ๊ฐ์,์ต๊ณ ๊ฐ์,ํ์ ์,๋ฆฌ๋ทฐ์}] keyword [keyword ...]
์ 1:
$ python yes24.py ํ์ด์ฌ ์ํค๋ถ์ค
Opening http://www.yes24.com/Product/Search?domain=BOOK&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC+%EC%9C%84%ED%82%A4%EB%B6%81%EC%8A%A4 ...
ํ์ด์ฌ์ ์ด์ฉํ ๋ฅ๋ฌ๋/๊ฐํํ์ต ์ฃผ์ํฌ์
http://www.yes24.com/Product/Goods/108251432
ํํฐ๋ฉ ์ | ์ํค๋ถ์ค | 2022๋
03์
ํ๋งค์ง์ 1,776
ํ์ด์ฌ ํ
์คํธ ๋ง์ด๋ ์๋ฒฝ ๊ฐ์ด๋
http://www.yes24.com/Product/Goods/107008224
๋ฐ์์ธ, ๊ฐ์ฃผ์, ์ ์์ฐฌ ์ | ์ํค๋ถ์ค | 2022๋
02์
ํ๋งค์ง์ 2,517
์์ ์กํ๋ ํํธ ํฌ์ with ํ์ด์ฌ
http://www.yes24.com/Product/Goods/107036607
GILโฒs LAB ์ | ์ํค๋ถ์ค | 2022๋
02์
ํ๋งค์ง์ 1,782
์ผ ์ํ๋ ์ง์ฅ์ธ์ ์ํ ์์
์๋ํ with ํ์ด์ฌ
http://www.yes24.com/Product/Goods/94483920
์ต์์ ์ | ์ํค๋ถ์ค | 2020๋
11์
ํ๋งค์ง์ 4,113
...
์ 2:
$ yes24 C++
Opening http://www.yes24.com/Product/Search?domain=BOOK&query=C%2B%2B&order=SINDEX_ONLY ...
Clean Code ํด๋ฆฐ ์ฝ๋
http://www.yes24.com/Product/Goods/11681152
๋ก๋ฒํธ C. ๋งํด ์ /๋ฐ์ฌํธ, ์ดํด์ ์ญ | ์ธ์ฌ์ดํธ(insight) | 2013๋
12์
ํ๋งค์ง์ 61,812
์ ์ง์ ๋
์ ์์ 4
http://www.yes24.com/Product/Goods/107874372
์ฑ์ ์์ /์ฌ๋ฆฌํผ-C ๊ธ๊ทธ๋ฆผ | ์์ดํ
ํฌ๋ฏธ๋์ด | 2022๋
02์
ํ๋งค์ง์ 24,849
์ญ์ ๋ด ์ฒญ์ถ ๋ฌ๋ธ์ฝ๋ฉ๋๋ ์๋ชป๋๋ค. ๊ฒฐ 1
http://www.yes24.com/Product/Goods/107847414
์ํ๋ฆฌ ์ํ๋ฃจ ์ /ํ์นธ โง ๊ทธ๋ฆผ/๊น์ฅ์ค ์ญ | ๋์ค์จ๋ฏธ๋์ด(D&C๋ฏธ๋์ด) | 2022๋
03์
ํ๋งค์ง์ 18,843
ํผ์ ๊ณต๋ถํ๋ C ์ธ์ด
http://www.yes24.com/Product/Goods/74269921
์ํ์ฐ ์ | ํ๋น๋ฏธ๋์ด | 2019๋
06์
ํ๋งค์ง์ 41,073
...
$ yes24 --order ์ ํ๋์ C++
Opening http://www.yes24.com/Product/Search?domain=BOOK&query=C%2B%2B&order=RELATION ...
๋
ํ๊ฒ ์์ํ๋ C ํ๋ก๊ทธ๋๋ฐ
http://www.yes24.com/Product/Goods/18732021
์ตํธ์ฑ ์ | ๋ฃจ๋นํ์ดํผ | 2015๋
06์
ํ๋งค์ง์ 1,440
์ฝ๋ฏน ํํด๋น ์ง ์ง์
์ผ๋ก ์ธ๊ณ์ต๊ฐ 8
http://www.yes24.com/Product/Goods/108603876
์๋ผ์ฝ๋ฉ ๋ฃ ์์ /RoGa ๊ธ๊ทธ๋ฆผ/๊น์ฅ์ค ์ญ | ๋์ค์จ๋ฏธ๋์ด(D&C๋ฏธ๋์ด) | 2022๋
04์
ํ๋งค์ง์ 1,710
๋ฐฉ๊ณผ ํ, ์ด์ธ๊ณ ์นดํ์์ ์ปคํผ๋ฅผ 4
http://www.yes24.com/Product/Goods/108603698
์นด์๋ฏธ ๋๋ฆฌ ์ /U์ค์ผ ๊ทธ๋ฆผ/์ด์ง์ฃผ ์ญ | ๋์ค์จ๋ฏธ๋์ด(D&C๋ฏธ๋์ด) | 2022๋
04์
ํ๋งค์ง์ 1,200
Game Programming in C++
http://www.yes24.com/Product/Goods/78898401
์ฐ์์ด ๋ง๋ํ๋ธ ์ /๋ฐ์ฃผํญ ์ญ | ์์ด์ฝ์ถํ์ฌ | 2019๋
09์
ํ๋งค์ง์ 1,044
...