一方面是因为他们确实训练有素文字转WAV音频