还有第二层指引文字转WAV音频