用更准确的说法来描述整个过程文字转WAV音频