因此必须进行最优化的选择文字转WAV音频