在原本的二十四人基础上文字转WAV音频