因为他无法跟我们说文字转WAV音频