所以……一半是推断文字转WAV音频