他只归结为文字转WAV音频