所以他至少也应该递个眼神之类的文字转WAV音频