他们三个几乎同时低声互问文字转WAV音频