这两者之间的比重又是如何能称得准文字转WAV音频