最基本的框架是五种武技文字转WAV音频