做出的选择显然比文字转WAV音频