第三点是内外结合文字转WAV音频