其原理是依靠扫描得出的外形特征文字转WAV音频