都是把另外两人放在第一位文字转WAV音频