反而是更加直接的开口文字转WAV音频