交叉审问的结果就是文字转WAV音频