前者是学习形式的文字转WAV音频