时间:2024-04-14 02:01:31 下载该word文档
扫描的文档可以转换为可编辑word文档扫描文字.结果以图片格式(.bmp存入电脑.然后使用ORC识别系统进行转换.最终用WORD进行修改编辑.下面教你如何使用ORC:OCR是英文OpticalCharacterRecognition的缩写.翻译成中文就是通过光学技术对文字进行识别的意思.是自动识别技术研究和应用领域中的一个重要方面.它是一种能够将文字自动识别录入到电脑中的软件技术.是与扫描仪配套的主要软件.属于非键盘输入范畴.需要图像输入设备主要是扫描仪相配合.现在OCR主要是指文字识别软件.在1996年清华紫光开始搭配中文识别软件之前.市场上的扫描仪和OCR软件一直是分开销售的。扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售.OCR技术的迅速发展与扫描仪的广泛使用是密不可分的.近两年随着扫描仪逐渐普及和OCR技术的日臻完善.OCR己成为绝大多数扫描仪用户的得力助手.一.OCR技术的发展历程自20世纪60年代初期出现第一代OCR产品开始.经过30多年的不断发展改进.包括手写体的各种OCR技术的研究取得了令人瞩目的成果.人们对OCR产品的功能要求也从原来的单纯注重识别率.发展到对整个OCR系统的识别速度.用户界面的友好性.操作的简便性.产品的稳定性.适应性.可靠性和易升级性.售前售后服务质量等各方面提出更高的要求.IBM公司最早开发了OCR产品.1965年在纽约世界博览会上展出了IBM公司的OCR产品--IBMl287.当时的这款产品只能识别印刷体的数字.英文字母及部分符号.并且必须是指定的字体.20世纪60年代末.日立公司和富士通公司也分别研制出各自的OCR产品.全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的.两年后NEC公司也推出了同样的系统.到了1974年.信函的自动分拣率达到92%左右.并且广泛地应用在邮政系统中.发挥着较好的作用.1983年日本东
芝公司发布了其识别印刷体日文汉字的OCR系统OCRV595.其识别速度为每秒70-100个汉字.识别率为%.其后东芝公司又开始了手写体日文汉字识别的研究工作.中国在OCR技术方面的研究工作相对起步较晚.在20世纪70年代才开始对数字.英文字母及符号的识别技术进行研究.20世纪70年代末开始进行汉字识别的研究.1986年.国家863计划信息领域课题组织了清华大学.北京信息工程学院.沈阳自动化所三家单位联合进行中文OCR软件的开发工作.至*****.清华大学率先推出了国内第一套中文OCR软件--清华文通版.至此中文OCR正式从实验室走向了市场.清华OCR印刷体汉字识别软件其后又推出了TH-OCR92高性能实用简/繁体.多字体.多功能印刷汉字识别系统.使印刷体汉字识别技术又取得重大进展.到1994年推出的TH-OCR94高性能汉英混排印刷文本识别系统.则被专家鉴定为[是国内外首次推出的汉英混排印刷文本识别系统.总体上居国际领先水平".上个世纪90年代中后期.