基本已经确定推测了文字转WAV音频