为什么我们要吞掉文字转WAV音频