Mac、PCでほぼ満足のいく大規模言語モデルが使えるようになった今、じゃあスマートフォンならどうなのよ、となりますよね、普通。
というのも、gpt-oss-20bは、QualcommがOllamaと組んでSnapdragonに最適化するというじゃないですか。ならばスマートフォンにもローカルLLM時代が来るのではないか、と。
オンデバイスのLLMについてはAppleが超軽量のFoundation ModelをApple Intelligenceに組み込んでおり、その実力は以前も試してみました(エミュレータ上で、ですが)。
ならば、16GB以上のVRAMが使えるAndroid端末であればgpt-oss-20bが動くのでは?
といっても、手元にはお腹が膨れて(バッテリー膨張のため)開腹手術・臓器交換までしたPixel 7しかありません。少なくとも16GBのメモリを積んだAndroidが欲しい、でもお金はあまり出したくない。
そんなところに、中古なら7万円台であるという情報を聞きつけ、手に入れたのがOnePlus 12。これには16GBのメモリが入っています。Androidでは2番目に速いSoCだし7万円は安いかなと購入しました。
Android用のローカルLLMクライアントとしては「PocketPal」というアプリがいいと聞いたので、インストール。
しかし、12GBのファイルをダウンロードして読み込んだ直後にアプリが落ちてしまい、使うことができません。
やはり無理があるようです。
gpt-ossのさらに小さなバージョン、例えば10bとか出てくれば、あるいは誰かが量子化をさらに進めてくれれば……。
とにかく、16GBメモリのAndroid端末(Qualcomm Snapdragon 8 Gen 3)で一世代前のChatGPTを動かす夢は潰えてしまったわけです。
Galaxy Z Fold7(Snapdragon 8 Elite、16GB)でも動かなかったそうなので、3~4割AI性能が上がったとされる8 Eliteでも搭載メモリが16GBでは無理ということですね。
それでもこのニューデバイス(OnePlus 13が出ているので一世代前ですが)を無駄にしたくはない。もうちょっと現実的なLLMを探して、iPhoneと比べてみるなどしてみたい。
iPhoneは最新モデルであるiPhone 16 Proでもメモリは8GBしかありませんから、gpt-oss-20が動くはずもありません。
仮にiPhone 17 Proが2倍の16GBになったとしても、20bは動かない可能性大です。3倍の24GBにするなど、ありえない話でしょう。
動く可能性があるとすれば、24GBのメモリとSnapdragon 8 Eliteを搭載したOnePlus 13(国内正規ルートはなし)かASUS ROG Phone 9 Pro Edition(23万9800円)、タブレットになりますが、RedMagic Astra(11万4800円)あたりが該当します。
というわけで気持ちを切り替えて、同じ条件でiPhoneとAndroidを比べることにしました。
オンデバイスLLMのベンチマークでiPhoneとAndroidを比較したものは、探してみた限りではありません。
ならば、同一LLM、同一アプリ、同一プロンプトでの実行速度比較に多少の意味はありそうです。
使用するアプリはPocketPal。無料なのでオンデバイスLLMラバーは必携です。Android版、iPhone版も同機能のアプリを無料で提供しています。
このアプリ、セレクトしたいくつかのLLMはそのまま読み込めますが、Hugging Faceに上がっているモデルを検索してダウンロードすることもできるので、特殊改造をしたやつとかもお手元で使えるというわけ。
ローカルLLMアプリには有料のものが多いのですが、いろいろなモデルを試したいのならPocketPalを選択すべきでしょう。
比較で使うLLMとしては、Qwen3-4B-Instruct2504-IQ4を選択。
比較対象のiPhoneはA17 Proプロセッサを搭載し、メモリは8GBのiPhone 15 Pro。もうすぐ2年目で、9月10日には2世代古いiPhoneとなります。
4種類のプロンプトをChatGPT 5に考えてもらい、iPhone 15 ProとOnePlus 12(16GBメモリ)で比較しました。
では行ってみましょう。

創作タスク(長文生成 → デコード速度差が顕著)
長めの出力(500文字)を指定することで、トークン生成速度がそのまま測定対象になります。
桜の花びらが散る春の夜、月明かりの下で一人の旅人が古い城跡を訪れる。その光景を小説風に500文字で描写してください。
iPhone 15 Pro(8GBメモリ) | OnePlus 12(16GBメモリ) |
桜の花びらが風に舞い、春の夜を照らす。月は澄み切った空に浮かび、城跡の石垣に静かに光を注ぐ。その影は、昔の戦いや、誰かの哀しみを彷彿とさせる。旅人は銀色の斗篷を着て、足元を揺れる花びらに足音を失いながら、古い門の前まで進む。風に揺れる櫓の間、残された瓦片が月明かりに光り、まるで誰かの記憶が蘇っているかのようだ。彼は静かに、昔の誰かと出会ったかのように、城の奥へと足を踏み入れる。その時、花びらが彼の肩に触れ、ふと、昔の恋の話が聞こえてくるように、心の奥で震える。風は静まり返り、月は城の塔へと灯りを差し、旅人はその静けさの中に、誰かの忘れられた詩を読み始めた。この夜は、散る桜と共に、過去と未来が重なったように、ただ、静かに、そして美しく、時を越えて、誰かの心に刻まれている。 | 桜の花びらが風に舞い、春の夜を包み込む。月は澄み切った空に浮かび、城跡の壁に静かに影を落としている。その光は、古びた石垣の隙間を通り抜けて、朽ちた門の先で、細い線を描くように広がる。旅人は、黒い長袴と銀の手袋を着たまま、その場に立つ。風に揺れる桜の葉が、彼の額にそっと触れ、まるで昔の誰かの記憶を呼び起こすかのようだ。城の跡には、誰もいない。しかしその静けさに、昔の戦いの悲しみや、恋人の約束が、月明かりに溶けているように響く。彼は手にした古い地図を、ふと見つめ、その記載された「桜の夜」という名前を、口ずさみながら、立ち尽くす。花びらは空へ舞い上がり、月の下で、一瞬、誰かの笑顔のように、光を帯びてゆく。旅人は、その花びらを手に取り、風に運ばれ去る。城は静かに、また眠りに戻る。夜は、記憶と共に、桜の散る音を刻んでいた。 |
11.83 tokens/s | 11.32 tokens/s |
会話生成タスク(自然文脈処理 → モデルの内部計算に差が出やすい)
日本語文脈生成が複雑なので、GPU最適化の有無やCPU処理速度の差が出やすい。
次の条件で登場人物の会話を書いてください。
- 登場人物は「侍」「町娘」「旅の僧」
- 江戸時代の日本語っぽい口調にする
- 会話は5往復
iPhone 15 Pro(8GBメモリ) | OnePlus 12(16GBメモリ) |
侍:おお、何でこの城跡にまで来てんだ、風邪ひいてるか? 侍:何を言うてんだ、馬鹿か!城は死んだ者が居るどころか、誰も居ない! 侍:…まあ、お前ら、お前らの頭の中は、花びらで満たされてるやつらか。 (風が吹き、花びらが静かに舞う) | 侍:お前ら、この城跡に来んなって何で?風に舞う花びら見ても、無駄だぞ! 町娘:おっ、おっ、桜の夜って、昔、この城で恋した人達が、月明かりで会ったって、聞こえませんか? 旅の僧:ああ、昔の話か。いや、今の世は、恋は風に任せろ、と心得てた。 町娘:それこそ、風に任せろって、この花びらが、君の心に届いてるのよ! 侍:ふん、花びらか、俺の刀で切り捨てやがれ! 町娘:なに、刀で?じゃあ、この花びら、君の心に、一瞬の笑顔を届けたって、信じてるよ! 旅の僧:(笑いながら)ええ、心は、花と共に、風を待つものだ。 侍:……ふん、お前ら、おれの気分、うんざりするな。 町娘:ああ、でも、風が吹けば、誰かの心、また動くんだよ。 旅の僧:そう、風が吹くなら、花も、人の声も、また、どこかで、会うんだ。 (※江戸時代の風通しの強い会話風、文語と現代語の混在、感情の起伏が自然に。) |
10.42 tokens/s | 9.69 tokens/s |
長文要約タスク(トークン多め → デコード速度差が出やすい)
出力が長め&日本語文生成になるので、tokens/s の違いが見えやすくなります。
以下の文章を300文字以内で要約してください。
明治維新は、19世紀後半の日本において政治・経済・社会・文化のあらゆる側面に変革をもたらした出来事である。江戸幕府の終焉、新政府の樹立、西洋文明の導入、近代的な軍事制度や教育制度の確立、殖産興業の推進などが一体となって進行した。特に廃藩置県や地租改正、徴兵令の公布は国民生活に大きな影響を与えた。
iPhone 15 Pro(8GBメモリ) | OnePlus 12(16GBメモリ) |
明治維新は、19世紀後半の日本を政治・経済・社会・文化に変えた転換点だった。江戸幕府が倒れ、新政府が立ち上がった。西洋の技術や制度を導入し、廃藩置県、地租改正、徴兵令などによって、国家体制と国民生活が大きく変化した。殖産興業も推進され、近代化が進んだ。 | 明治維新は19世紀後半、江戸幕府の終焉とともに日本全体に変革をもたらした。廃藩置県、地租改正、徴兵令などにより政治・経済・社会が近代化。西洋文明を導入し、軍事・教育制度を整え、殖産興業を推進。国民生活に大きな影響を与えた。 |
9.31 tokens/s | 10.67 tokens/s |
難読語含む辞書風説明(日本語トークナイザーで負荷がかかる)
トークン化の効率が端末差・エンジン差に反映されやすい比較プロンプトです。
「顰蹙(ひんしゅく)」という言葉の意味を説明し、例文を3つ作ってください。
iPhone 15 Pro(8GBメモリ) | OnePlus 12(16GBメモリ) |
「顰蹙(ひんしゅく)」は、**眉をひそめる、眉をくっつける様子**を表す言葉です。 --- ### 例文(3つ) 1. 彼は問題の解決策を考えているうちに、顰蹙を浮かべて眉をひそめた。 2. 報告の内容に不満を感じた彼は、顰蹙を浮かべながら会議に立ち上がった。 3. 子供が失敗したことに、母は顰蹙を浮かべて、落ち着かせようとした。 --- ### 補足: この言葉を使うことで、感情の奥行きや、人の内面の動きをよりリアルに伝えることができます。 | 「顰蹙(ひんしゅく)」は、眉をくっつけて考えている様子、または不満や悩み、困りを表す表情を意味する。 例文: 1. 会議中、彼は問題の解決策を思いつかず、顰蹙した。 2. 予算の不足に気づいた彼女は、顰蹙しながらノートをめくる。 3. その失敗に、先生は顰蹙しながら口を噤んでいた。 |
11.24 tokens/s | 11.37 tokens/s |
4つのベンチマークで2つはiPhoneが、残りの2つはOnePlusが勝ちましたが、双方の差はわずか。互角といってよい結果となりました。
PocketPalにはベンチマーク機能もあり、これもやってみました。
PocketPalベンチマークではOnePlus 12の勝利でした。
PocketPalはAIスマートフォンの性能ランキングも出しており、トップは12.9インチのiPad Pro(第7世代)となってます。M4なので当然といえば当然なのですが、それ、スマートフォンじゃないでしょう?
2位はiPhone 16 Pro。ランキングではAndroid端末はかなり下の方になっていますね。高性能端末をお持ちの方はぜひベンチマークを走らせて投稿してみてください。


筆者はスマートフォンに大金を投ずるのなら、大量のメモリと強力なGPUを積んだAIマシンを増やしたいので、9月10日の「言葉にできない。(Awe dropping.)」イベントで発表されるであろうiPhone 17 Pro/Airには手を出さない可能性が大ですが、例えばgpt-oss-10bがiPhone 17 Airでも動きまっせとサム・アルトマンがティム・クックと握手を交わして発表したりしたら気が変わるかもしれません。