大数据文摘出品

编译：李欣月、刘俊寰

古文字识别能力是从事历史研究的学者的必备技能，对于日本的历史研究学者而言，他们的挑战则来自于“古草体”文字，这种文字是古日本使用频率最高的文字之一，也将是他们科研道路上遇到的第一道关卡。

20世纪之后现代日语逐渐普及，“古草体”因不便在现代印刷体系里使用，逐渐被人们遗忘，导致现在即使保存有数万份古草体书写的书籍，能够阅读的人也是寥寥。但是对于现代的研究者们而言，就算只阅读一篇古文资料，也必然会和“古草体”文字“大眼瞪小眼”——遇到“语言障碍”。

“古草体”与现代日文

因此，阅读“古草体”文字的能力就显得格外重要，而目前能够无障碍阅读“古草体”文字的人只占了日本全国人数的0.01%，这对日本的历史研究相当不利。

但也不要太过担心！最近，在谷歌东京事务所的发布会上，就有这么一个神器亮相，它能帮助你快速识别“古草体”文字，阅读“古草体”书籍也完全不在话下！

数据化处理远远不够，能阅读才是根本

在本次主题为“Solve….with AI”的太平洋地区记者发布会上，身为人文开放数据联合使用中心与国家信息学研究所研究员的塔琳・卡拉梅特女士展示了能够将古日本常用的“古草体”翻译（正确的说法应该是“翻刻”）为现代文字的OCR（KuroNet），并说明了该系统是如何识别“古草体”的。

塔琳女士手拿“古草体”文本。本次项目由信息与系统研究机构和数据科学研究（ROIS-DS）、人文开放数据联合使用中心合作完成。

声明：本项AI的开发使用了谷歌技术，可能会让大家误以为是谷歌开发的，实际不然，在此指出并订正。另外，准确地说，项目的操作内容不是“翻译”而是“翻刻”。特此声明。

将明治时代的“古草体”转换为现代日语

塔琳女士还介绍了进行本次项目的原因：“东京神保町的二手书店里面有数千本古籍在售卖，很容易就能买到。这些文本可能会在海啸或者地震时受损，所以我们对其进行数据化处理，但是数据化之后如果无法阅读也毫无意义，因此就有了利用AI来解决这个问题的念头。”

东京神保町的二手书店里有数千本古籍在售卖

AI不能解读的地方被做了标记

利用深度学习和TensorFlow.js，开发名为“KuroNet”的工具

根据塔琳女士的介绍，同先生和团队制作了这个名为“KuroNet”的人工神经网络模型。该系统利用深度学习（U-Net）来学习国家文献研究博物馆所拥有的“古草体”的数据，然后将“古草体”翻刻为现代日语。

名为KuroNet的“古草体”OCR，以及将它应用于TensorFlow.js进行特征识别

另外此次是利用谷歌提供的TensorFlow.js（在Web浏览器上面就能实行的机器学习库）在Web上面进行逐字识别。

把KuroNet类比为谷歌翻译更容易理解。谷歌翻译APP有一个功能是把图片里OCR识别到的文字转换为其他语言，KuroNet与此类似，把古文本的照片进行OCR识别，转换为现代日语，一页只需2秒，非常迅速，翻刻一本“古草体”书籍大概需要1个小时。

KuroNet2秒就“翻译”完一页

“翻译”一本古文需要一个小时，正确率为85%

这样进行“翻译”的话正确率为85%。塔琳女士说到，“在‘翻译’16本书籍的基础上得出85%这个数据，将来随着数据量增多，学习能力增强，正确性还会提高。”

另外，在TensorFlow.js提供的Web程序上，能够在线上对“古草体”文字逐字识别。这个工具的开放源码是对公众开放的，今后民间研究者可以利用这个工具阅读“古草体”文字的书籍。阅读“古草体”文字书籍的人增多了，就能推进日本历史的研究进程。

TensorFlow.js提供的Web程序

开放源码提供

根据塔琳女士的介绍，信息与系统研究机构和数据科学研究（ROIS-DS）、人文开放数据联合使用中心、国立情报学研究所（NII）、人类文化研究机构、国家文献研究博物馆等主办的名为“识别古草体——揭开日本千年之前的面纱”的比赛正在Kaggle上举行，比赛的目的是为在全球范围内募集提高OCR识别率的方法。

参赛链接：

https://www.nii.ac.jp/news/release/2019/0710.html

Kaggle上举行的比赛

比赛从7月中旬开始，到10月截止，目前已有129支队伍报名参与。预计11月11日在东京召开的研讨会“日本文化和AI”上将给第一名颁奖，获奖者还将获得奖金$15000。

本文为特邀专栏文章，来自：大数据文摘，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/76264.html 。