尽量减少新的阶级分层文字转WAV音频