看來自己的猜测应该是准确的文字转WAV音频