因为他怕自己一开口文字转WAV音频