理论上应该和文字转WAV音频