主要是看双方的耐性文字转WAV音频