所以才要他们去摘取文字转WAV音频