其实只有两种角色文字转WAV音频