但他们总体关心的是外形的肥瘦文字转WAV音频