第一重则分为十二层文字转WAV音频