所以只需要根据彼此的得失计算最后结果文字转WAV音频