近日,“多体蒙古文(包括混排汉英)印刷文档识别暨统一平台少数民族文字识别系统”通过了技术鉴定。
该系统能识别多种印刷字体的蒙古文字符号和文档,并能识别蒙汉英混排的文档,是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的蒙古文文档识别实用系统,解决了多字体蒙古文汉英混排文本切分和识别问题。蒙古文、藏文、维吾尔文等6种少数民族文字的纸出版物要转换成电子出版物,今后可以不再靠人工录入,只要经“统一平台少数民族文字识别系统”处理,印刷文档的扫描图像就会自动生成可编辑检索的电子文档。
据介绍,该系统是全球首款在统一平台上支持我国主要少数民族文字文档的识别系统。系统在汉字和英文文档识别的基础上将4种类型6种文字的少数民族文字,即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)。文档识别综合集成在一个统一的平台系统中,使我国最主要的少数民族文字文档能够自动识别输入计算机。该系统软件产品采用国际标准编码,系统结构具有良好的扩展性,还支持阿拉伯文的识别。
该项目实现了在统一平台上蒙、藏、维、哈、柯、朝(混排汉英)文档识别的综合集成,对促进我国少数民族语言文字的信息化建设具有重要意义。