而且他们两个没有使用口型文字转WAV音频