因为两个人被压缩在很小的一个范围之内文字转WAV音频