而不是把嘴文字转WAV音频