数十ページのPDFを1回で処理、ローカルOCRモデル「Unlimited OCR」をバイドゥが無料公開。商用利用もできる（生成AIクローズアップ）

テクノロジー AI

2026 Jun 29 7:15

山下（Seamless）

2014年から幅広い分野の研究論文をピックアップして解説しているメディア「Seamless」（シームレス）を個人運営しています。

特集

数十ページのPDFを1回で処理、ローカルOCRモデル「Unlimited OCR」をバイドゥが無料公開。商用利用もできる（生成AIクローズアップ）

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、Baiduの研究チームが開発した、数十ページのPDFなど長文を一括処理できるエンドツーエンドのOCRモデル「Unlimited OCR」を取り上げます。このモデルはMITライセンスで公開されており、商用利用も可能です。

▲人間が本を書き写す際のワーキングメモリを模したUnlimited OCRの構成図

大規模言語モデル（LLM）をデコーダーに採用したOCRモデルが注目を集めています。LLMをデコーダーとして用いることで、言語の文脈知識を推論に活かせるため、認識精度が向上するというメリットがありますが、その一方で、出力するテキストが長くなるほど「KVキャッシュ」（過去の計算結果のメモリ保持）が累積し、メモリ消費量が増加するとともに、テキストの生成速度が低下していくという課題を抱えていました。

研究チームはこの課題を解決するため、人間の書き写し作業におけるワーキングメモリの仕組みを模倣した、アテンション機構「Reference Sliding Window Attention」（R-SWA）を提案しました。

人間が本を書き写す際、これまでに書き終えた膨大なページすべてを読み返すことはせず、手元の参照元の本と直前に書いたわずかな文字だけを確認しながら次の文字を書き進めます。

R-SWAはこの認知プロセスを再現しており、生成される各トークンは、すべての参照トークンにアクセスできる一方で、過去の出力テキストに関しては直近の一定数（標準で128個）のトークンに絞ってアテンションを向けます。これにより、ドキュメント全体の視覚情報を正確に保持しつつ、デコード中のKVキャッシュのサイズを一定に保つことに成功しました。

このR-SWAを、高い画像圧縮率を持つDeepSeek OCRのエンコーダー「DeepEncoder」と組み合わせることで、Unlimited OCRは標準的な32Kトークンの最大長において、数十ページに及ぶドキュメントをわずか1回の計算でテキスト化できるようになりました。

性能評価において、Unlimited OCRはドキュメント解析のベンチマーク「OmniDocBench v1.5」で93.23%という総合スコアを記録し、DeepSeek OCR 2の89.17を上回る結果を達成しました。

▲OmniDocBench（v1.5／v1.6）における各エンドツーエンドモデルの比較

《山下（Seamless）》

Amazon売れ筋ランキング

ノートPC

>> もっと見る

イヤホン

>> もっと見る

コミュニケーションロボット

>> もっと見る

山下（Seamless）

2014年から幅広い分野の研究論文をピックアップして解説しているメディア「Seamless」（シームレス）を個人運営しています。

ショート動画

特集

BECOME A MEMBER

『テクノエッジアルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジアルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。

数十ページのPDFを1回で処理、ローカルOCRモデル「Unlimited OCR」をバイドゥが無料公開。商用利用もできる（生成AIクローズアップ）

山下（Seamless）

特集

Amazon売れ筋ランキング

山下（Seamless）

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

Amazonプライム感謝祭で高性能ロボット掃除機MOVA P50 Ultraが半額＋さらに5％オフ。水拭きモップ自動洗浄・乾燥まで対応ハイエンドモデル

生成AIグラビアギャラリー

「AIを使う人材が欲しい」企業と「AIを使いこなせない」現場——ギャップを埋める方法とは

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

CORSAIR K65 PLUS WIRELESS・M75レビュー Macと映える静音75%メカニカルゲーミングキーボード・マウスで勝率も生産性も向上

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

山下（Seamless）

特集

Amazon売れ筋ランキング

SHARE THE STORY この記事をみんなにシェア

山下（Seamless）

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中