自然災害はなにも人や建物だけの脅威ではありません。希少な保管史料が破壊されれば、歴史さえ消え去ってしまいかねません。これに対する防御策として、日本の学者たちは国内にある数世紀前の紙史料のデジタル化を進めています。この作業では多くの場合、各ページをスキャンまたは撮影するという方法が取られています。
しかし、この方法で内容をデジタル形式で保存しても、研究者が解読できるようになるというわけではありません。今はもう使われなくなった「くずし字」と呼ばれる文字で書かれた紙の書物や文書が数多く残されていますが、その文献を判読できる日本の人文学教授は 10% にも満たないというのが現状です。
「結局何十億という画像を得ても、研究者が目を通すのには何百年とかかるでしょう」と話すのは、ROIS-DS 人文学オープンデータ共同利用センターの研究者であるタリン・カラーヌワット (Tarin Clanuwat) 氏です。「それらの画像に含まれる情報に簡単にアクセスできる方法はまだありません。」
各ページに書かれている言葉をコンピューターで読み取って検索できる形式で取り出すには、「書き起こす」という作業がさらに必要になります。書き起こしのためには、手作業か、OCR (光学式文字認識) と呼ばれるコンピューター ビジョン技術を使う方法が考えられます。
カラーヌワット氏は仲間の研究者らとともに、8 世紀から 20 世紀初頭にかけ日本の文章で主に使われていたくずし字を現代漢字に書き起こす、ディープラーニング OCR システムの開発に取り組んでいます。
その AI のトレーニングと推論のどちらにも GPU が欠かせないと同氏は言います。
「GPU を使わずに研究を進めるなんて考えられません。GPU は作業のスピードアップに役立つというだけの存在ではなく、この研究を実現するための大前提になっています。」
忘れられた手書き文字を解析する
日本語の標準化が 1900 年に行われ、現代的な印刷技術が出現するまでは、くずし字が書物や文書に広く用いられていました。数多くの史料がこの草書体文字で書かれているにもかかわらず、現在それを判読できる専門家はそう多くありません。
今までに現代文字に変換されたのはくずし字による文章のほんの一部にすぎず、また、専門家が手作業で書物の書き起こしを行うには、時間もコストもかかります。カラーヌワット氏が期待するのは、AI を利用した OCR システムによって、そうした史料のより多くを学者が読んだり検索したりできる形に変換できるようになることです。
同氏は、自身の研究機関および国立情報学研究所に勤める北本朝展氏と、モントリオールの AI 研究機関である Montreal Institute for Learning Algorithms に勤めるアレックス・ラム (Alex Lamb) 氏と共同で、OCR システムの研究を行いました。彼らの研究論文は 2018 年、権威ある NeurIPS カンファレンスの Machine Learning for Creativity and Design ワークショップに採択されました。
同研究者チームは、国文学研究資料館に所蔵されている 17 ~ 19 世紀の書物のラベル付きデータセットを使って、TITAN Xp をはじめとする NVIDIA の GPU でディープラーニング モデルのトレーニングを行いました。モデルのトレーニングにかかったのは、およそ 1 週間。しかし、CPU で同じトレーニングを行うのは「不可能だっただろう」と、カラーヌワット氏は言います。
くずし字には何千種類もの文字があり、データセット内でほとんど出現しない字も多いため、ディープラーニング モデルによる認識は困難です。それでもなお、同チームの文書認識モデル KuroNet は以前のモデルをしのぐ平均 85% の精度を誇ります。
この最新バージョンのニューラルネットワークは、2,000 種類以上の文字を認識可能です。300 種類未満の文字からなる比較的簡単な文書なら、精度は 95% 程度にまで跳ね上がると、カラーヌワット氏は説明します。「データセットの中でもっとも厄介な文書の 1 つは辞書です。珍しい言葉や一般的でない言葉が多く収録されていますから。」
チームが直面した課題の 1 つは、くずし字の長い歴史を代表するトレーニング用データを見つけることでした。くずし字が使われていた何百年もの間に文字は変化しましたが、トレーニング用データはより現代に近い江戸期のものだったためです。
カラーヌワット氏は、日本の古典文学や歴史的文書、気候記録により多くの人々がアクセスできるようになってほしいと願っています。
ブログに掲載された画像は、16 世紀ごろに書かれた「源氏物語歌合絵巻」から引用したものです。ROIS-DS 人文学オープンデータ共同利用センターの近代以前の日本の文章を集めたデータセットに含まれる画像であり、国文学研究資料館に帰属します。