不过这种被动仅仅是靠着猜测和推断带来的文字转WAV音频