但显然他们两个都是话中有话文字转WAV音频