唯一考虑的因素也就是安全性文字转WAV音频