Video Demo: https://youtu.be/z_vU2fBJ_gs
Final project for Harvard's CS50 course, done in pairs by Yuzo Santana and Marcelo Maia. This application was made in python and:
- records the person's Portuguese speech
- takes the recorded audio and transcribes its content using Google voice recognition
- the transcribed text is then translated into English using Google's translator
- the original speech audio is used as a sample in the Coqui-AI's text to speech local model XTTS-V2
- an artificial speech is generated in English, copying the original voice
- make it work with any language
First of all, make sure you are using Python 3.10.11 (exact version).
git clone https://github.com/yMarceloMaia/cs50-final-project
cd ./cs50-final-project
py -m venv .venv
source .venv/Scripts/activate
pip install -r requirements.txt
git lfs install
git clone https://huggingface.co/coqui/XTTS-v2
py src/app.py
Click the record button and press SPACEBAR to start recording. Release the SPACEBAR to stop and wait for it to generate the voice. It might take a while depending on your hardware.
(PORTUGUÊS)
Projeto final do curso CS50 da Harvard, feito em dupla por Yuzo e Marcelo. Esse aplicativo foi feito em python e:
- grava a fala em português da pessoa
- pega o áudio gravado e transcreve seu conteúdo utilizando o reconhecimento de voz da Google
- o texto transcrito é então traduzido para inglês utilizando o tradutor da Google
- o áudio original da fala é utilizado como amostra no modelo texto para voz local XTTS-V2 da Coqui-AI
- é gerada uma fala artificial em inglês, copiando a voz original
- gerar falas em qualquer língua
Primeiramente, instale o Python 3.10.11 (versão exata).
git clone https://github.com/yMarceloMaia/cs50-final-project
cd ./cs50-final-project
py -m venv .venv
source .venv/Scripts/activate
pip install -r requirements.txt
git lfs install
git clone https://huggingface.co/coqui/XTTS-v2
py src/app.py
Clique no botão de gravação e segure a barra de espaço enquanto fala. Solte a barra de espaço e aguarde a geração da voz. Pode levar um tempinho dependendo do seu hardware. (RTX 4070 levou em média 35 segundos)