他们还是决定采用第二个方案文字转WAV音频