Voice-Pro: 究極のAI音声変換＆多言語翻訳ツール 🔊

🌍 한국어 ∙ English ∙ 中文简体 ∙ 中文繁體 ∙ 日本語 ∙ Deutsch ∙ Español ∙ Português

🎙️ YouTubeビデオ処理、音声認識、翻訳、多言語サポートテキスト音声変換のための強力なAIベースWebアプリケーション

Voice-Proは、マルチメディアコンテンツ制作に革新をもたらす最先端のウェブアプリです。YouTube動画のダウンロード、音声分離、音声認識、翻訳、テキストから音声への変換（TTS）を1つの強力なツールに統合し、クリエイター、研究者、多言語専門家にとって理想的なソリューションを提供します。

🔊 最高レベルの音声認識: Whisper, Faster-Whisper, Whisper-Timestamped
🎤 ゼロショット音声クローニング: F5-TTS, E2-TTS, CosyVoice
📢 多言語テキスト音声変換: Edge-TTS, kokoro
🎥 YouTube処理＆オーディオ抽出: yt-dlp
🌍 100以上の言語での即時翻訳: Deep-Translator
🔇 プロ級ボーカル分離: UVR5
🔥 AIカバー作成: RVC

ElevenLabsの強力な代替として、Voice-Proはポッドキャスター、開発者、クリエイターに先進的な音声ソリューションを提供します。

⚠️ 注意事項

Voice-Proはv2.xにアップデートされました（Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0）
🆓 無料体験版は最大60秒のメディア処理に対応
🔥 AIカバー機能が追加されました
🎤 CosyVoiceとkokoroのサポートが追加されました
⏳ 初回起動時に**CozyVoice2-0.5B (9GB)**をダウンロードします。ネットワーク速度によっては1時間以上かかる場合があります
🎧 音声クローニング用のボイスサンプルは継続的に更新予定
ご案内:
- v1.x から v2.x へのアップグレード: 不可能. したがって、installer_files フォルダを削除し、最新バージョンの start.bat を実行することを推奨します。
- v2.x から v2.x へのアップグレード: 可能. 最新のコードをダウンロードした後、update.bat を実行します。
- 初めてのユーザー: 以下のインストール方法を参照してください。
- トラブルシューティング: ほとんどの場合、installer_files フォルダを削除し、configure.bat と start.bat を順番に実行すると解決します。

🚄 デモ

`ダビングスタジオ`タブ: 文字起こし、翻訳、TTS

voice-pro-demo-v1.6.7-1080p.mp4

スタジオタブの総合的なメディア処理ワークフローデモ: YouTube動画のダウンロードからAIによる音声分離、Whisper自動字幕、多言語翻訳、F5-TTSを使用したプロフェッショナルなダビングまで、一貫したメディア変換プロセスを紹介します。

`F5-TTS-Multi`タブ: ポッドキャスト制作

f5-tts-demo-elon-zuckerberg-1115-3.mp4

F5-TTSの革新的なAI音声クローニング技術デモ: マーク・ザッカーバーグやイーロン・マスクの実際の声を精密に模倣し、まったく新しいコンテンツを作成する高度な音声変換技術を披露します。

`AIカバー`タブ

321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4

トランプバージョンのIU『Cupid』、キム・グァンソク『恋しい人』、『二等兵の手紙』を制作します。

`リアルタイム翻訳`タブ: リアルタイム認識と翻訳

voice-pro-demo-v1.5.7-h264-1080p-live.mp4

リアルタイム多言語翻訳機能デモ: BBCニュースコンテンツを即座にキャプチャし、リアルタイムで字幕を生成、他の言語に即時翻訳する革新的な多言語メディア処理プロセスを紹介します。

⭐ 主な機能

1. ダビングスタジオ

YouTube動画ダウンロード＆オーディオ抽出
MDX-NetおよびDemucsによる音声分離
100以上の言語での音声認識と翻訳をサポート

2. 音声技術

音声からテキスト: Whisper, Faster-Whisper, Whisper-Timestamped
テキストから音声:
- Edge-TTS: 100以上の言語、400以上の声
- E2-TTS, F5-TTS, CosyVoice: ゼロショットクローニング
- kokoro: HuggingFace TTS Arenaで2位
🔥 AIカバー（音声から音声）: UVR5でボーカル除去、RVCで変調

3. リアルタイム翻訳

即時音声認識
リアルタイム多言語翻訳
カスタマイズ可能なオーディオ入力

🤖 ウェブUI

`ダビングスタジオ`タブ

統合ハブ: YouTubeダウンロード、ノイズ除去、字幕、翻訳、TTS
ffmpeg互換フォーマットすべて対応
出力オプション: WAV, FLAC, MP3
100以上の言語での字幕と認識
速度、ボリューム、ピッチ調整可能なTTS

`Whisper字幕`タブ

字幕専用: 90以上の言語
ビデオと統合された字幕表示
単語単位のハイライトとノイズ除去オプション

`翻訳`タブ

100以上の言語翻訳
字幕ファイル対応（ASS、SSA、SRTなど）
リアルタイム音声認識と翻訳

`音声生成`タブ

オプション: Edge-TTS, F5-TTS, CosyVoice, kokoro
有名人声でのポッドキャストと多言語サポート

🔥 `AIカバー`タブ

ボーカル除去: MDX-Net, Demucs
音声変調: RVC
AIボイスはDiscord AI Hubでダウンロード、またはabus.aikorea@gmail.comにリクエスト

🎤✨ 参照音声

追加したい音声はIssuesページでリクエストしてください。Issues

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

💻 システム要件

OS: Windows 10/11（64ビット） ※ Linux/Mac非対応
GPU: CUDA 12.4対応NVIDIA（推奨）
VRAM: 4GB以上（8GB以上推奨）
RAM: 4GB以上
ストレージ: 20GB以上の空き容量
インターネット: 必須

📀 インストール

configure.batとstart.batでVoice-Proを簡単にインストールできます。

1. パッケージ準備

から最新リリースをダウンロード（Source code (zip)）

git clone https://github.com/abus-aikorea/voice-pro.git

2. インストールと実行

🚀 configure.bat
- git、ffmpeg、CUDAをインストール（NVIDIA GPU使用時）
- 初回のみ実行。インターネット必要、1時間以上かかる場合あり
- コマンドウィンドウを閉じない
🚀 start.bat
- Voice-ProウェブUIを起動
- 初回実行時に依存関係をインストール（1時間以上かかる場合あり）
- 問題発生時はinstaller_filesを削除後再実行

3. アップデート

🚀 update.bat: Python環境を更新（再インストールより高速）

4. アンインストール

uninstall.bat実行、またはフォルダ削除（ポータブルインストール）

❓ 使用のヒント

ブラウザが自動起動しない場合

Windowsコマンドウィンドウを閉じ、start.batを再実行するか
ブラウザを直接起動し、コマンドウィンドウに表示されるアドレス（例: **http://127.0.0.1:7892**）を入力

CUDAメモリ不足エラーが出る場合

Windowsタスクマネージャーの「パフォーマンス」タブでGPUメモリを確認
ノイズ除去レベルを0または1に設定（レベル2は8GB以上のGPUメモリが必要）
計算タイプをintに設定（floatは品質が高いがGPUメモリを多く使用）

字幕の品質を向上させるには？

大きなWhisperモデルほど字幕品質が向上する傾向あり（large > medium > small > base > tiny）、ただし必ずしもそうではない
計算タイプではfloatが優れた性能を発揮。intはモデル量子化でGPU使用量を減らし速度を向上させるが、性能は低下
ノイズ除去レベルを上げると背景音が除去され、残った音声のみが認識に使用されるが、常に良い結果を保証するわけではない

📢 注意事項

Windows DefenderがVoice-Proを信頼できないアプリとして警告し、実行を制限する場合があります。

SmartScreen「警告」設定: 「詳細情報」をクリックし、「それでも実行」を選択
SmartScreen「ブロック」設定: start.batのプロパティで「ブロック解除」をチェックし、再実行

Windows Defenderがバッチファイルをトロイの木馬と誤認識する場合、これは「偽陽性（False Positive）」と呼ばれることが多いです。解決策は以下の通りです。

ファイル例外処理:
- 「スタート」ボタンをクリックし、「設定」に移動
- 「更新とセキュリティ」をクリック
- 「Windowsセキュリティ」から「ウイルスと脅威の防止」に進む
- 「ウイルスと脅威の防止設定の管理」をクリック
- 「ウイルスと脅威の防止設定」で「例外の追加」を選択
- 「ファイルまたはフォルダ」を選び、対象のバッチファイルを追加
Windows Defenderの一時無効化: 一時的な解決策。ただし、他の脅威にさらされる可能性があるため注意が必要
アンチウイルスソフトへの報告: ファイルが安全と確信できる場合、Microsoftに偽陽性として報告可能。Microsoftが確認後対応

🚨 お知らせ

このリポジトリはVoice-Proの無料トライアルを提供します。
Voice-Proの無料トライアル版では、最大60秒のメディアを処理できます。
Voice-Proの公式バージョンは、ABUS公式サイト(https://abuskorea.imweb.me)から購入できます。

	Trial Version	☕Contributor Version	Subscription Version
Media Length Limit	60 seconds	Unlimited	Unlimited
Translation Service	Google Translate (Open Source)	Google Translate (Open Source)	Azure Translate (Microsoft)
Text-to-Speech Service	Edge TTS (Open Source)	Edge TTS (Open Source)	Azure TTS (Microsoft)

☕ 貢献

このプロジェクトに参加して協力したい場合は、お気軽にIssuesを作成してください。
問題が発生した場合は、このプロジェクトを改善するためにPull requestsを提出してください。
どのような貢献も歓迎します。
購入、ビジネスパートナーシップ、技術チューニング、投資、その他の関連事項に関するお問い合わせは、メール(abus.aikorea@gmail.com)でお問い合わせください。
このプロジェクトが気に入ったら、このリポジトリに星を付けてください。大変感謝いたします。 ⭐⭐⭐
こちらから寄付でVoice-Proを支援できます。

📬 連絡先

メール: abus.aikorea@gmail.com
ホームページ（韓国語）: https://abuskorea.imweb.me
Amazon: US | Japan | Singapore | UAE
ネイバー: ソフトウェア | ソリューション

👍 YouTube

製品情報
カラオケ: ポップ | K-Pop | J-Pop

🙏 クレジット

Demucs: https://github.com/facebookresearch/demucs
yt-dlp: https://github.com/yt-dlp/yt-dlp
gradio: https://github.com/gradio-app/gradio
edge-TTS: https://github.com/rany2/edge-tts
F5-TTS: https://github.com/SWivid/F5-TTS.git
openai-whisper: https://github.com/openai/whisper
faster-whisper: https://github.com/SYSTRAN/faster-whisper
whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
RVC-Project: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
UVR5: https://github.com/Anjok07/ultimatevocalremovergui

©️ 著作権情報

by ABUS

Files

README.jpn.md

Latest commit

History