目前还只是我的推测和直觉文字转WAV音频