这种观测方法也有问题文字转WAV音频