根据影像等检测结果文字转WAV音频