再使用透视能力进行细微的观察文字转WAV音频