再加上对方说话的时间文字转WAV音频