而且是正确的推测文字转WAV音频