第一个部分就是面试文字转WAV音频