然后训练成为他们所用的工具文字转WAV音频