只能勉强使出第一阶段的十二根文字转WAV音频