每个境界可以分为初期文字转WAV音频