一般都是从他们手里文字转WAV音频