在启动服务之前,请确保已安装以下依赖项。
-
Windows:
-
Linux (基于 Debian 的发行版):
sudo apt install wget git python3 python3-venv
-
Linux (基于 Red Hat 的发行版):
sudo dnf install wget git python3
-
Linux (基于 Arch 的发行版):
sudo pacman -S wget git python3
执行以下命令将本仓库代码克隆到本地:
git clone https://github.com/lenML/ChatTTS-Forge.git --depth=1
-
自行下载(任选其一):
-
使用脚本下载(任选其一):
- 从 HuggingFace 下载:
python -m scripts.download_models --source huggingface
- 从 ModelScope 下载:
python -m scripts.download_models --source modelscope
- 从 HuggingFace 下载:
安装完成之后 models
文件夹应该如下
./models
├── ChatTTS
│ ├── asset
│ │ ├── DVAE.pt
│ │ ├── Decoder.pt
│ │ ├── GPT.pt
│ │ ├── Vocos.pt
│ │ ├── spk_stat.pt
│ │ └── tokenizer.pt
│ └── config
│ ├── decoder.yaml
│ ├── dvae.yaml
│ ├── gpt.yaml
│ ├── path.yaml
│ └── vocos.yaml
├── put_model_here
└── resemble-enhance
├── hparams.yaml
└── mp_rank_00_model_states.pt
音频后处理操作(如加速、减速、提高音量等)依赖以下库:
- ffmpeg 或 libav(推荐使用 ffmpeg)
- rubberband-cli(仅 Linux 环境需要)
Mac(使用 Homebrew):
brew install ffmpeg
Linux(使用 aptitude):
apt-get install ffmpeg libavcodec-extra
apt-get install rubberband-cli
Windows:
若你已经安装有 ffmpeg,并可以在命令行中调用,那么无需进行下面的下载和安装
- 从此处下载并解压 ffmpeg 的 Windows 二进制文件。
- 将 ffmpeg 的
/bin
文件夹中的 .exe 文件解压到项目目录/ffmpeg
文件夹内
文件 (window) 目录应该如下
./ffmpeg
├── ffmpeg.exe
├── ffprobe.exe
├── ffplay.exe
└── put_ffmpeg_here
由于 pytroch 安装与你的本机环境有关,请自行安装对应版本,下面是一个简单的安装脚本
(如果直接运行某些情况可能会安装 cpu 版本,具体应该指定什么版本请自行确定)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -f https://mirror.sjtu.edu.cn/pytorch-wheels/torch_stable.html
python -m pip install -r requirements.txt
如果需要部署 Docker 环境,请配置 Docker 和 Docker Compose。
- Docker: https://docs.docker.com/get-docker/
- Docker Compose: https://docs.docker.com/compose/