所以精度低一个数量级文字转WAV音频