layout | background-class | body-class | category | title | summary | image | author | tags | github-link | github-id | featured_image_1 | featured_image_2 | accelerator | demo-model-link | ||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
hub_detail |
hub-background |
hub |
researchers |
Silero Speech-To-Text Models |
A set of compact enterprise-grade pre-trained STT Models for multiple languages. |
silero_logo.jpg |
Silero AI Team |
|
snakers4/silero-models |
silero_stt_model.jpg |
silero_imagenet_moment.png |
cuda-optional |
# PyTorch์ ์ ์ ํ ๋ฒ์ ์ด ์ด๋ฏธ ์ค์น๋์ด ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
pip install -q torchaudio omegaconf soundfile
import torch
import zipfile
import torchaudio
from glob import glob
device = torch.device('cpu') # gpu์์๋ ์ ๋์๊ฐ์ง๋ง, cpu์์๋ ์ถฉ๋ถํ ๋น ๋ฆ
๋๋ค.
model, decoder, utils = torch.hub.load(repo_or_dir='snakers4/silero-models',
model='silero_stt',
language='en', # 'de', 'es'๋ ์ฌ์ฉ ๊ฐ๋ฅ
device=device)
(read_batch, split_into_batches,
read_audio, prepare_model_input) = utils # ์์ธํ ๋ด์ฉ์ ํจ์ ์๊ทธ๋์ฒ(function signature)๋ฅผ ์ฐธ์กฐํ์ธ์.
# TorchAudio์ ํธํ๋๋ ํ์(์ฌ์ด๋ ํ์ผ ๋ฐฑ์๋)์ค ํ๋์ ํ์ผ ๋ค์ด๋ก๋
torch.hub.download_url_to_file('https://opus-codec.org/static/examples/samples/speech_orig.wav',
dst ='speech_orig.wav', progress=True)
test_files = glob('speech_orig.wav')
batches = split_into_batches(test_files, batch_size=10)
input = prepare_model_input(read_batch(batches[0]),
device=device)
output = model(input)
for example in output:
print(decoder(example.cpu()))
Silero Speech-To-Text ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ฌ๋ฌ ์ธ์ด์ ๋ํด ์ํ ํผ ํฉํฐ ํํ๋ก ์ํฐํ๋ผ์ด์ฆ๊ธ STT๋ฅผ ์ ๊ณตํฉ๋๋ค. ๊ธฐ์กด ASR ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ๋ค์ํ ๋ฐฉ์ธ, ์ฝ๋ฑ, ๋๋ฉ์ธ, ๋ ธ์ด์ฆ, ๋ฎ์ ์ํ๋ง ์๋์ ๊ฐ์ธํฉ๋๋ค(๋จ์ํ๋ฅผ ์ํด ์ค๋์ค๋ 16kHz๋ก ๋ค์ ์ํ๋งํด์ผ ํจ). ๋ชจ๋ธ์ ์ํ ํํ์ ์ ๊ทํ๋ ์ค๋์ค(์ฆ, [-1, 1] ๋ฒ์๋ก์ ์ ๊ทํ๋ฅผ ์ ์ธํ ์ด๋ค ์ ์ฒ๋ฆฌ ์์ด)์ ํ ํฐ ํ๋ฅ ์ด ์๋ ์ถ๋ ฅ ํ๋ ์์ ์ฌ์ฉํฉ๋๋ค. ๋จ์ํ๋ฅผ ์ํด ๋์ฝ๋ ๋๊ตฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ชจ๋ธ ์์ฒด์ ํฌํจํ ์ ์์ง๋ง ์๋ง์ด ๊ฒฐํฉ๋ ๋ชจ๋์, ํน์ ํ ๋ด๋ณด๋ด๊ธฐ ์ํฉ์์ ๋ ์ด๋ธ๊ฐ์ ๋ชจ๋ธ์ ์์ฑ๋ฌผ์ ์ ์ฅํ ๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค.
Speech์์ Open-STT์ Silero Models์ ๋ํ ๋ ธ๋ ฅ์ด ImageNet ๊ฐ์ ์๊ฐ์ ๋ค๊ฐ๊ฐ๊ธธ ๋ฐ๋๋๋ค.
์ง์๋๋ ์ธ์ด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- English
- German
- Spanish
ํญ์ ์ต์ ์ง์ ์ธ์ด ๋ชฉ๋ก์ ๋ณด๋ ค๋ฉด repo๋ฅผ ๋ฐฉ๋ฌธํ์ฌ ์ฌ์ฉ ๊ฐ๋ฅํ ์ฒดํฌํฌ์ธํธ์ ๋ํ yml
file์ ํ์ธํ์ญ์์ค .
To see the always up-to-date language list, please visit our repo and see the yml
file for all available checkpoints.
์ถ๊ฐ ์์ ๋ฐ ๊ธฐํ ๋ชจ๋ธ ํ์์ ๋ณด๋ ค๋ฉด ์ด link๋ฅผ ๋ฐฉ๋ฌธํ์ญ์์ค. ํ์ง ๋ฐ ์ฑ๋ฅ ๋ฒค์น๋งํฌ๋ wiki๋ฅผ ์ฐธ์กฐํ์ญ์์ค. ๊ด๋ จ ์๋ฃ๋ ์์๋ก ์ ๋ฐ์ดํธ๋ฉ๋๋ค.