他只注重现实文字转WAV音频