这是一种理论上的猜想文字转WAV音频