可能会测得比较准确文字转WAV音频