唯一的优势恐怕就是人设文字转WAV音频