中华经典资源库、古汉语大语言模型等成果涌现

姓名含生僻字
办身份证不愁了

字数

《 舟山晚报 》( 2025年04月10日 第 15 版 )

  “頔”寓意美好、“燊”表示炽盛、“鋆”意为金子……古籍里的这些生僻字,曾因无法输入电脑,给文化传承、学术研究,乃至人们日常生活带来不便。数字时代,如何让汉语言文字更完整地活跃在“云”端?

  日前,教育部围绕推进语言文字信息化发展举办新闻发布会。“从‘铅与火’到‘光与电’,中文信息处理技术不断创新发展。”北京大学王选研究所所长汤帜介绍,北京大学作为国家语委中文文字字体设计与研究中心的依托单位,设计开发国家重大基础性规范《通用规范汉字表》的配套字库,研制人口信息生僻字超大字库解决方案,在第二代居民身份证、护照上应用,协助解决银行、税务等社会应用系统的人名、地名缺字问题。

  记者了解到,近年来,教育部联合有关部门发布了国家通用语言文字和民族语言文字信息化规范标准100多项,推动建成国家语委媒体语言语料库、冬奥会多语言术语库等,上线国家语言资源服务平台、中国语言文字数字博物馆等,持续推动语言文化资源共建共享。

  随着智慧化学习的广泛开展,语言文化优质资源惠及更多人。教育部语言文字信息管理司司长刘培俊介绍,为推进语教融合,教育部打造“中华经典资源库”,总浏览量超6000万;打造“中小学语文示范诵读库”,惠及全国约1.6亿中小学生和上千万教师及社会大众;上线中国语言文字数字博物馆,收纳海量资源,构建全民学习新课堂。

  此外,数智赋能也让国家通用语言文字推广普及效率不断提升。目前,普通话测试方式已实现从人工到智能的转变,机辅测试已服务超过9200万人次。

  语言文字信息化让古籍里的文字展现出新的活力。打开“AI太炎”古汉语大语言模型,输入待分析的古籍文本,系统便能根据用户选择进行释读,包括字词释义、文白翻译、句读标点、用典分析等。

  近日,教育部、国家语委、中央网信办共同印发《关于加强数字中文建设  推进语言文字信息化发展的意见》。意见提出创新应用自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工等5项前沿技术。  据人民网