所以他选择的是一条更为稳妥文字转WAV音频