接着所有的视线全都凝聚过来文字转WAV音频