第二次是四个文字转WAV音频