他可以明明白白的推测出来文字转WAV音频