科学应对地震灾害
2008年全国科技活动周广西活动
第十一届北京科博会
当前位置:
首页 > 资讯中心 > 成果荟萃
[站务信息] ·资源整合 科信网全新改版
少数民族文字识别系统研制成功

    广西科技信息网 2007年1月30日8:32:00 来源:科技日报 字体大小:   

  蒙古文、藏文、维吾尔文等六种少数民族文字的纸出版物要转换成电子出版物,今后不再靠人工录入,只要经“统一平台少数民族文字识别系统”处理,印刷文档的扫描图像就会自动生成可编辑检索的电子文档。这是记者今天在清华大学举行的“多体蒙古文(包括混排汉英)印刷文档识别暨统一平台少数民族文字识别系统”技术鉴定会上获悉的。 

  据项目研制主持人,清华大学丁晓青教授介绍,该系统能识别多种印刷字体的蒙古文字符和文档,并能识别蒙汉英混排的文档,是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的蒙古文文档识别实用系统,解决了多字体蒙古文汉英混排文本切分和识别问题。在实际的多字体蒙汉英文档测试集上,文本识别率可达96.89%。 

  据介绍,该系统是全球首款在统一平台上支持我国主要少数民族文字文档的识别系统。系统在汉字和英文文档识别的基础上将四种类型六种文字的少数民族文字,即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)。文档识别综合集成在一个统一的平台系统中,使我国最主要的少数民族文字文档能够自动识别输入计算机。该系统软件产品采用国际标准编码,系统结构具有良好的扩展性,还支持阿拉伯文的识别。 

  由倪光南、何新贵、戴浩院士组成的鉴定委员会认为:该项目解决了实用的多字体印刷蒙古文文档及其混排汉英的识别问题,实现了在统一平台上蒙、藏、维、哈、柯、朝(混排汉英)文档识别的综合集成,其主要技术指标达到了国际领先水平,对促进我国少数民族语言文字的信息化建设具有重要意义。(记者 赵凤华) 

作者:

打印  收藏  RSS订阅 关闭
相关文章
·中国少数民族扶贫项目启动
2006-11-10
·我国少数民族DNA基因库建立
2006-09-7
  成果登记
膜下滴灌节水高效栽培技术试验示范与推广
B11车型前仓、后轴、副车架产品的研究开发
间苯三酚配伍曲马多对分娩镇痛、缩短产程的研究
巨噬细胞移动抑制因子在炎症性肠病中的作用
超细微囊生产复方丹参片的研究与开发
金莲花口服液的研究与开发
N106L五菱之光加长系列客车开发
N200系列微型客车开发
B系列后驱发动机开发
N708系列微型客车开发
  成果评价
系列中草药总黄酮提取研究
长联无缝桥梁成套技术研究
广西烟仓主要有害生物的生物学特性及防治研究
脂蛋白脂酶基因多态性与脑血管疾病关系
中医整体护理内涵建设研究与应用
政务服务及监察通用软件
“三农”科技服务网建设
survivin、Fas、FasL及ERK1/2、JNK和p38基因在..
B-myb及MCAM在肝细胞癌的表达及临床意义
广西中药信息资源网络化集成开发
Copyright@1998-2008 www.gxsti.net All rights reserved
广西科技信息网版权所有 未经允许 不得转载
客户服务信箱 net@gxsti.net桂ICP备05001018号