这就意味着我们只能像普通人一样文字转WAV音频