其根基和潜力其实是相当有限的文字转WAV音频