似乎是在衡量这话的真假文字转WAV音频