1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、古代ローマの碑文の欠けた文字を復元し、その文章の内容や書かれた時代、場所を推定するAIシステムを提案した論文「Contextualizing ancient texts with generative neural networks」を取り上げます。Google DeepMindやノッティンガム大学などに所属する研究者らがNature誌で発表しました。

▲損傷した碑文の修復
古代ローマ時代、石に刻まれた文字は至る所にありました。皇帝の命令から奴隷の墓石まで、これらの碑文は2000年以上前の人々の生活を今に伝えています。しかし、長い年月の間に文字は欠け、判読できない部分も多く、いつ、どこで書かれたのかも分からないこともあります。
研究チームは、この問題を解決するため「Aeneas」という生成AIシステムを開発しました。このシステムは、碑文の写真と文字の転写を入力すると、欠けている文字を復元し、場所と年代を推定できます。さらに、似た内容の他の碑文を自動的に見つけ出す能力も持ち合わせています。
研究チームは、17万6861件のラテン語碑文をデータベース化し、AIに学習させました。これは紀元前7世紀から紀元後8世紀までの1600万文字に及ぶ膨大なデータです。

▲Aeneasのアーキテクチャ
システムの性能を検証するため、23人の碑文学の専門家が参加する大規模な実験が行われました。専門家たちは最初、自分の力だけで碑文の欠けた部分を復元し、時代と場所を推定しました。次に、AIが見つけた似た碑文を参考にして同じ作業を行い、最後にAIの予測も見ながら作業しました。
結果、文字の復元では専門家だけだと39%の誤り率でしたが、類似碑文の支援により33%に改善し、Aeneasの予測も利用した場合は21%まで改善しました。
場所の推定では、人力の正解率が27%で、Aeneasの予測を利用した場合は68%にまで向上しました。時代の推定も、実際の年代との誤差が31.3年から14.1年に縮まりました。