Tacotron2 实操心得与记录
最编程
2024-02-09 07:22:53
...
项目地址NVIDIA/tacotron2,先clone下来
git clone https://github.com/NVIDIA/tacotron2
配置环境
我的实验环境(ubuntu):
python==3.6.10
numpy==1.17.0
matplotlib==2.1.0
scipy==1.0.0
numba==0.48.0
librosa==0.6.0
tensorflow==1.15.2
pytorch==1.1.0
torchvision==0.3.0
inflect=0.2.5
Unidecode==1.0.22
由于我们实验室服务器的cuda版本是9.0,因此只能使用1.1.0版的PyTorch,否则无法使用GPU。但是这个项目源码中使用了一些PyTorch 1.3以上的新功能,所以我要先修改一部分源码(如果你的Pytorch版本大于等于1.3,可以略过这部分内容)
第一个要改的地方式是utils.py
第9行
# mask = (ids < lengths.unsqueeze(1)).bool()
mask = (ids < lengths.unsqueeze(1)).to(torch.bool)
第二个要修改的地方是model.py
第401和488行
# memory, mask = ~get_mask_from_lengths(memory_lengths)
memory, mask = (get_mask_from_lengths(memory_lengths) <= 0)
# mask = ~get_mask_from_lengths(output_lengths)
mask = get_mask_from_lengths(memory_lengths) <= 0
以上是少数人需要做的改动,下面提到的是所有人都需要做的改动,就是将filelists/
目录下的三个文件内容进行适当修改
每个文件里面都有两列内容,第一列是语音数据所在的位置,第二列是该语音所对应的文本
我们要改的就是第一列,主要是根据你下载好的LJSpeech Dataset存放的路径。比方说我将LJSpeech-1.1/
放到了tacotron2/
目录底下,与tacotron2/train.py
同级,那么我的路径就应该改为
开始训练
单GPU
如果你只有一块GPU,运行如下命令即开始训练
python train.py --output_directory=outdir --log_directory=logdir
多GPU
多GPU训练,首先安装Apex
git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir ./
然后手动新建一个目录mkdir tacotron2/logs
最后运行如下命令
python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True
常见报错的解决办法
-
CUDA out of memory
,将hparams.py
中的batch_size
参数值改小一点即可 -
No module named numba.decorators
,先卸载numbapip uninstall numba
,然后安装0.48.0版本即可pip install numba==0.48.0
-
numpy.core.multiarray failed to import
,确保自己安装的numpy版本小于1.19,大于1.15
推荐阅读