纯粹是两个注意到了对方的个体文字转WAV音频