这取决于他的表现文字转WAV音频