所以只用眼角的余光看着文字转WAV音频