所以考虑的问题自然是不能等同于丁长生的角度所看到的问题文字转WAV音频