而且最好是他们都在场的情况下文字转WAV音频