但主流还是12文字转WAV音频