还是在于他们的基础科学理论上文字转WAV音频