也只能单纯的以能量去计算文字转WAV音频