只能靠两人的外在表现来分辨文字转WAV音频