最后的捕捉任务应该是由她完成的文字转WAV音频