我觉得他指的是涵盖了两者文字转WAV音频