按照他理解当中的文字转WAV音频