我们得尽量减少难清洁的部分文字转WAV音频