所以在听到我们的对话以后文字转WAV音频