我们的短期目标甚至是一致的文字转WAV音频