但从逻辑上似乎也完全能说得通文字转WAV音频