还需要模拟出和凡人一模一样的身体文字转WAV音频