因为他们都比较注重感觉文字转WAV音频