凭这些再推导出它们后面的内容文字转WAV音频