所以他们只能在细节上留心文字转WAV音频