这只是合理的假设文字转WAV音频