他们更多的是在互相利用文字转WAV音频