后者往往是前者的十倍百倍文字转WAV音频