这样悬殊的比例自然不可能是常态文字转WAV音频