所以才会在训练中那么拼文字转WAV音频