一般我们只挖掘上层的文字转WAV音频