所以更倾向第一种文字转WAV音频