他们反而更容易适应文字转WAV音频