逐渐分出了深浅和边缘文字转WAV音频