然后进行总结和提取文字转WAV音频