根本就没法推测文字转WAV音频