所以需要大量的言语辅助文字转WAV音频