点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI出手 破解“整理国故”百年难题
首页> IT频道> 今日头条 > 正文

AI出手 破解“整理国故”百年难题

来源:科技日报2025-05-09 18:46

  1919年,胡适在《新青年》杂志上发起了著名的“整理国故”运动,旨在“研究问题、输入学理、整理国故、再造文明”。一个世纪过去了,整理古籍任务仍然艰巨。书卷浩如烟海,人才门槛高筑,无不令专家感叹:“想完成全部古书的整理,可能得300年。”

  而当古老的文化载体遇见最年轻的技术手段,伟大的奇迹或许就会显现。在机器学习和成千上万志愿者助力下,一本本尘封的古书被一一翻开。

  近日,“我用AI校古籍——我是‘校书官’古籍大众智能整理计划(2025年)”(以下简称“我是‘校书官’”项目)在武汉大学启动。该项目吸纳了上万名志愿者,预计将在一年内整理数千万字的古籍,并将整理结果在“识典古籍”平台上向大众免费呈现。

  如果说修复和整理古籍是与时间赛跑,AI就好比戴宗的“神行甲马”,实现了整理速度的几何级提升。

  从小作坊到流水线,整理速度提升20倍

  华东师范大学古典文献学在读博士生刘帅曾经怀疑过AI。2017年他用过古籍整理软件,感觉其颇为鸡肋。然而,2024年9月,当听到“我是‘校书官’”项目借助“识典古籍”平台,一个月整理了5000多万字的古籍时,他震惊了:“我一年能整理几十万字就很了不起了。”

  “识典古籍”整合了国内顶尖AI研发团队的开发能力和北京大学深厚的学术积淀。古籍整理被拆分成许多环节,主要包括文字识别、文字校对、结构整理、标点校对等。这些环节借助AI,大大节省了人力。

  打开“识典古籍”平台,上传一张古籍图片后,光学字符识别(OCR)技术将对图片中的人名、地名、书名、时间和职官,平台可以自动标记。对于OCR不确定的字,会用不同颜色标记出来,便于定位这些文字,然后参照底本修改。在文字精校环节,可以匹配两套不同的文本,在文字校勘环节,可以比较差异、撰写数字校勘记……

  北京大学数字人文中心副主任杨浩做过测试,AI自动标点准确率超90%,翻译古文也达到专家水平。“古籍标点是一大难点。”刘帅说,如今他遇到疑问,就会去对照“识典古籍”的自动标点——有点像围棋爱好者向AlphaGo学棋。

  杨浩说,传统的古籍整理以出版为目的,正确率要求极高,相应门槛也高,即便古籍专业的学生也经常出错,难以独立承担项目。大部分项目都是一个专家负责一种书,从头做到尾,因此效率很低。

  现在有了机器学习,AI在阅读大量人类成果后,对古文具备了相当的“语感”。在“我是‘校书官’”项目中,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。“AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。”刘帅说。

  AI的应用让对古籍感兴趣的人都可以参与进来。“我是‘校书官’”项目依托“识典古籍”平台,由全国22所高校承办,现已有数以万计的学生报名,许多人的专业可能与古籍无关。在去年的“我是‘校书官’”项目中,志愿者按水平被分为大众组和进阶组,前者负责粗校,后者负责精校。大众组已粗校整理了1643部古籍,进阶组精校整理了共计2451万字。

  2024年9月,刘帅也参加了“我是‘校书官’”项目,头一个月初步整理出200万字的古籍,这是过去速度的20倍。接下来他每天抽出两三个小时,一个月就整理完一部49万字难度颇大的古籍,而且整理质量很高。整个项目3个月,刘帅校点、标注、排版、审阅的书一共191种,总字数达500万以上。

  辨识“庐山真面目”,正确率节节攀升

  把古籍从图书馆库房搬到电子资源平台,实现整理速度几何级提升,主要归功于AI“识古”的智慧——它能读出黯淡缺损的古书,或解读晦涩难辨的符号。

  以前,古书很难数字化。传统的文字识别软件是为打印材料设计的。对于识别古书,机器经常“傻眼”:一个字往往有不同写法,字体风格不一样,书中还有并非汉字的笔画符号。另外,古书经常有折痕和破损缺字,墨迹黯淡,这也是为什么各大图书馆的古籍数字化多年来进度缓慢、严重依赖人工的重要原因。

  培育专业“识字匠”往往需要多年时间,但有了机器学习,一些有难度的辨识工作,可由AI代劳。

  国际上,AI复原庞贝古卷的成就,让人们对其潜力充满信心。公元79年被火山灰掩埋的赫库兰尼姆莎草卷轴已经碳化,无法展开。通过CT影像,人们得到了卷轴上微弱的墨水痕迹图像,但仍然无法识别。3位年轻人通过机器学习技术,从图像里推断出超2000个字符,连起来是一段与伊壁鸠鲁哲学有关的文字。这一消息2024年发布后,让国际古典学界非常兴奋。

  AI辨识那些尘封已久的破旧古籍,有点像AI修复老照片。2024年,“我是‘校书官’”项目采用AI技术修复上千年前的敦煌古卷《汉书·刑法志》。AI学习了原版古籍的文字、笔画风格和页面纹理,把缺损文字按原来的字体、色彩、背景修复还原,最大程度确保与原古卷一致。另一个AI项目则补全了残缺的《兰亭序》清晰样貌,其笔画细节遵照王羲之的技巧风格。

  “我们设置了‘追溯原本’功能,有疑问的话可以一键找到原文进行人工比对、校准。”抖音集团企业社会责任部古籍项目产品负责人王宇介绍,他们正在针对识别手写字、异体字、复杂版式、插图等精进算法,力求不断提升正确率。

  全国高等院校古籍整理研究工作委员会副秘书长吴国武说,提高AI水平还需要更优质的训练数据。比如,一些已有的整理本,版权在整理者、出版社。“要想提升AI辨识力,需进一步建立共享合作机制,促进数据的开发与利用。”

  目前,国内已有针对甲骨文整理识别的AI项目:通过阅读现存的海量甲骨文图像,AI整理出几千个甲骨文字符,并在不同甲骨文材料之间找到联系,为解读工作提供基础。

  实际上,越是鲜有人问津的生僻符号,越适合AI展露身手。我国少数民族先后创制和使用过30多种古文字,国务院公布的六批《国家珍贵古籍名录》中,收录了少数民族古籍1133部,国家图书馆收藏的民族古文献就有18个文种,共34000多册件。这些古籍的数字化和整理工作更缺专业人才,也更需要AI的加持。“这些材料的数字化与整理,今后有望大量依靠AI来完成。”王宇说。

  加快人才培养,让古籍走出“高阁”

  国家古籍保护中心调查结果显示,我国现存20多万种古籍,存世50万个版本,古籍数量达3200多万册。我国从20世纪80年代就开始尝试古籍数字化,但受技术、资金、版权等因素限制,海量文献中实现数字化的不超过八万种,而且许多书只是完成了初步的影像扫描,真正实现文本数字化的不足四万种。

  吴国武告诉记者,目前全国范围内专业从事古籍整理的人员仅有一万人左右。

  海量古籍面前,现有的整理方式如同愚公移山。古籍整理专业人才匮乏,生产力低下,一直是阻碍“整理国故”进程的世纪难题。

  百年前胡适痛感,古籍缺乏系统性导致“一般青年,对于中国本来的文化和学术,都缺乏研究的兴趣”,这一问题至今未得到很好解决。古籍研究仍是冷僻的学问,许多古籍从未向大众开放。

  2022年,中共中央办公厅、国务院办公厅印发的《关于推进新时代古籍工作的意见》明确提出,推进古籍数字化。全国古籍整理出版规划领导小组印发的《2021—2035年国家古籍工作规划》则将“国家古籍数字化工程”列为四项重大工程之一,对相关工作进行详细规划。

  “使用AI完成古籍整理的前期基础工作,效果很好。”吴国武把AI视为合作者,而不是简单的工具。在他看来,AI的加盟让全民得以了解甚至参与古籍整理这件事,可以说是广植“整理国故”的沃土。

  例如,“识典古籍”平台已免费上线超16000部古籍资源,累计吸引上亿人次了解和阅读古籍,为1300余个外部团队的古籍整理工作提供帮助。这已成为文献学界近年来最瞩目的大事。

  2024年底,著名的古籍整理工程《儒藏》与“识典古籍”平台展开合作。《儒藏》是新中国成立以来最大规模的儒学典籍整理工程,旨在收录自先秦至清末的所有儒学文献,预计总体达到10亿字。它没有采取相对容易的影印方式,而是志在整理出便于现代人阅读的文本,这给参与项目的学者带来了难以想象的工作量。引入AI后,影印文献的整理标注将大大加速,相关整理成果也会公布在“识典古籍”平台上,实现全民共享。

  “AI可以帮学者快速定位到需要的材料,还支持同时比对10个以内的校本,让专家把宝贵时间都用来干技术含量高的活儿。”王宇介绍。同时,“我是‘校书官’”项目的进阶组志愿者,也有机会与《儒藏》工程的专家团队交流。这个以在校生为主的项目,或许能使他们中的一些人未来走上“整理国故”的专业道路。

  AI的加盟也创新了古籍整理人才培养模式。吴国武介绍,目前高校里古典文献专业大多开设了数字人文相关的交叉培养课程;有7所高校已经申请了数字人文的本科专业,古籍整理也是重要方向。“交叉融合专业培养出来的人才,未来有望填补古籍专业大模型的人才缺口。”

  去年以来,国内许多著名图书馆、博物馆也积极引入AI技术,保护和挖掘自己的馆藏古典资源。国家图书馆藏现存最早版本的元大德三山郡庠刻本《通志》、首都图书馆藏《皇朝礼器图》、浙江图书馆藏文澜阁《四库全书》……一系列珍贵典籍,将通过AI的修复,重光临世。

  面对这一波热潮,刘帅很兴奋。他希望AI吸引更多的爱好者尝试整理古籍。“公众对古籍的关注、热爱和参与程度,决定了古籍整理的天花板有多高。我觉得自己站在一个时代改变的前夜。”他说。

  AI的速度,人类无法企及,刘帅也曾担忧过自己会不会失业。但如今他认为,AI的“识古”基础是人工整理的高质量数据,无论技术如何发展,仍需要人去参透古书的秘密,使文化遗产薪火相传。

  “降低古籍的阅读和整理门槛,始终是文献学的核心目的。”刘帅说。(采写:本报记者 杨 雪 策划:刘 恕 李 坤)

阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平同俄罗斯总统普京茶叙

  • 美英达成贸易协议 但细节尚待敲定

独家策划

推荐阅读
2025年4月10日,安徽省芜湖市无为市昆山镇三公山茶叶种植基地,千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放,美轮美奂,美不胜收
2025-04-10 15:13
近年来,江苏省泰州市姜堰区以科技创新赋能产业发展、以产业创新带动技术突破,持续优化营商环境,迭代升级“堰商汇”数智亲商服务平台,厚植民营经济发展沃土,以高质量服务促进民营企业高质量发展。
2025-04-06 18:06
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44
2025年4月1日,船舶航行在安徽省合肥市庐江县境内的引江济淮航道上,标志着菜子湖湿地候鸟越冬季禁航结束,菜(子湖)巢(湖)线恢复通航
2025-04-01 15:40
2025年3月31日,江苏苏州吴中区光福镇,太湖之滨,桃花、樱花、油菜花等竞相绽放,生态优美,春景如画
2025-04-01 15:31
用镜头记录城市更新 青岛首届“百家媒体看改变”活动圆满闭幕
2025-03-20 10:14
"昭君杯"首届全国老年合唱大赛在北京国家大剧院正式启动
2025-03-19 16:10
2025年2月25日,云南省昭通市绥江县,新市金沙江特大桥施工现场,工人正加紧施工。
2025-02-26 15:41
2025年2月7日,重庆市巫山县曲尺乡月明村一大片梅花竞相开放、灿若红霞,游客和市民前来游玩打卡,尽享春日的快乐和惬意
2025-02-08 14:52
2025年2月5日,福建省福清市石竹山风景区,一场非遗英歌舞、建瓯挑幡等非遗表演正在进行,让游客感受中华优秀传统文化魅力,丰富景区文化内涵和游览品质
2025-02-06 15:55
2025年1月20日,江西省赣州市章贡区城市中央公园内,游船与湖水、植被、高楼相互映衬,呈现出一幅冬日多彩美丽生态画卷
2025-01-20 15:30
2025年1月16日,受低温天气影响,山西省运城盐湖出现冬季独特的“硝花”景观,水面上的硝花形态各异晶莹剔透,美不胜收。
2025-01-16 15:56
一位“行者”行走在广袤的沙漠中,遮掩着绝世的面庞,一面“古镜”掩埋于厚重的沙下,刻满了时间的裂痕。
2025-01-13 17:25
2025年1月9日,重庆市酉阳土家族苗族自治县桃花源国家森林公园白雪皑皑,雪景如画
2025-01-09 15:24
关爱卡寒假公益行 助力云南各族青少年儿童梦想起航
2025-01-08 14:42
2025年1月5日,在山西太原南站开往呼和浩特东站的D4022次列车前,游客自拍合影。
2025-01-06 16:01
2024年12月8日,广西梧州岑溪市岑城镇木榔村,生态田园中阡陌纵横线条分明,冬韵如画。
2024-12-10 16:48
2024年12月10日,贵州省黔西市绿化白族彝族乡大海子村,青山环绕树木葱茏,构成一幅美丽的生态画卷。
2024-12-10 16:40
2024年12月6日,古城苏州街头,成片的银杏、红枫等树木色彩斑斓满目缤纷,成为一道迷人的风景。
2024-12-06 15:48
2024年12月6日,初冬时节,山东省青岛市即墨区灵山街道花卉种植基地的大棚里一片繁忙,种植户忙着管护花卉。
2024-12-06 15:48
加载更多