基本上都是经历过两次甚至更多次的墨化文字转WAV音频