它很有可能仅仅凭借类似本能的感应文字转WAV音频