就因为他们没有当场抓住文字转WAV音频