他们的关注点在于文字转WAV音频