推测出了一个大致的承受点文字转WAV音频