最大的差距是投入程度文字转WAV音频