投稿指南
来稿应自觉遵守国家有关著作权法律法规,不得侵犯他人版权或其他权利,如果出现问题作者文责自负,而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件,作者必须保证本刊的独立发表权。 一、投稿方式: 1、 请从 我刊官网 直接投稿 。 2、 请 从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。 二、稿件著作权: 1、 投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我刊所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我刊所投之作品不得同时向第三方投送,即不允许一稿多投。 5、 投稿人授予我刊享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 第5条所述之网络是指通过我刊官网。 7、 投稿人委托我刊声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

科技守护文明:中国古籍“回家”之路

来源:科技风 【在线投稿】 栏目:综合新闻 时间:2021-05-22
作者:网站采编
关键词:
摘要:中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。 阿里巴巴达摩院、四川大学、美国加州大学

中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。

阿里巴巴达摩院、四川大学、美国加州大学伯克利分校近日公布,他们花费两年多的时间,教会了AI识别中国古籍,将它们以数字化的形式接回故土,置于网络公益平台,向所有人开放。

这个项目的名字叫“汉典重光”,意为让失落的珍贵古籍重放光芒。“汉典重光”以97.5%的准确率,识别了20万页古籍,覆盖3万多字的古籍字典。

现代科技照亮中国古籍“回家”之路

中国古籍拥有非常庞大且复杂的知识体系,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。所涉及的范围也是极其广泛,有应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等的经验,有战争、瘟疫、地震、洪涝灾害、病虫害等方面的经验总结,还有医疗、中药、养生、家具、服饰、饮食文化等生活经验。

加州大学伯克利分校的东亚图书馆是全美三大东亚图书馆之一,90万册藏书里四成都是中文书,还有不少甲骨文和拓片。第一次到这儿的中国学者总感觉在穿越历史的“虫洞”,这些古籍不能运回中国,那就用数字化手段让古籍的内容“回家”。

2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院副院长王果与中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,最后获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

前所未有的挑战

据王果介绍,“汉典重光”的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。其中,四川大学将提供一切非计算层面的专业支持,并与达摩院的机器视觉实验室合作,共同开发古籍AI技术。

首批数字化的古籍共20万页,包含40余种珍贵宋元善本。刚开始大家对这个项目很有信心,但实际一上手才知道难度有多大。

首先是中国古籍的载体很多,纸、布、竹子、木头、甲骨、石碑……几乎所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。年代久远的纸张大多残缺不全,上面还布满斑点,而且排列非常复杂。古人喜欢从上到下,从右到左,还非常喜欢在上面做批注。

字迹的精美也成了负担。隶书、楷书、草书、行书都漂亮,但也真难认。大部分字还是手写的,不但两个人写的同一个字不一样,同一个人写的同一个字也差别很大,很多字还有不同写法。

团队原有的OCR(图像文字识别)的识别准确率只有40%,这显然是不够的,较早涉足古籍识别的Google Books(谷歌图书)针对的都是英文古籍,对中文也不适用。

大量创造性和创新性的辛勤劳动

没有前车可鉴,只能自己来了。“这就像教小朋友识字,确实难,但也有简单的部分,我们就由易到难慢慢做。”王果说。

前所未有的开拓性成果,包含着中国学者大量创造性和创新性的辛勤劳动。

达摩院的古籍识别算法,用AI替代人工,大幅压缩了专家标注工作量。在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。这种古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。

非计算机层面的工作也非常重要,四川大学专门组织了30多个历史系学生来做标注,这很耗神,眼力、脑力缺一不可,但这个过程没法省略,就像学生要学习,算法也要迭代,“只有数据够多够好,机器才能搞定”。

这是一件非常难但非常有意义的事情。古籍识别的挑战巨大,但大家还是想通过技术让古籍活起来,用科技守护文明。

据了解,达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆将继续投入人力、物力,扩大古籍数字化回归的数量,让所有蒙尘的古籍重焕新生。

达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,最终将成为一个开放的网络平台,供大众检索学习。

文章来源:《科技风》 网址: http://www.kjfzz.cn/zonghexinwen/2021/0522/1349.html



上一篇:湖北科技活动周启动 各地端出“科普大餐”
下一篇:科技赋能服务升级 智能机器人带你逛“抚州城”

科技风投稿 | 科技风编辑部| 科技风版面费 | 科技风论文发表 | 科技风最新目录
Copyright © 2018 《科技风》杂志社 版权所有
投稿电话: 投稿邮箱: