再结合两人的脸色文字转WAV音频