加起来也难以用代离的概念来估算文字转WAV音频