双方确定的阵容为文字转WAV音频