大多数时候他都是话只说一遍文字转WAV音频