那么即使由我们来训练文字转WAV音频