那就是会专注在一个短期目标文字转WAV音频