所以他说了声文字转WAV音频