所以雨果的推测是有根据来源的文字转WAV音频