
“生成AIのせい”で新卒雇用は減るが代替できない経験を持つ熟練者は安泰、新しいブラックホールを見つけるGoogle開発AIなど生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第111回)は、まずTencentから2つの技術、小型の翻訳モデル「Hunyuan-MT」と1枚の画像から探索可能な3D世界を生成できる「HunyuanWorld-Voyager」をご紹介します。

AIデバイスとしてのiPhone 17世代はどうだったのか? A19 Proを搭載したiPhone AirがMacBook Pro並みの処理性能って本当?(CloseBox)
iPhone 17、17 Air、17 Pro、17 Pro Maxの4モデルが正式に発表されました。その詳細は別記事に譲るとして、今回これらの機種がAI的視点からどうだったのかについて、細かいところを突いていきたいと思います。

Nano Bananaで蘇る思い出の逆光写真。画像編集ソフトとしてのナノバナナの実力(CloseBox)
先日Xに投稿した写真がちょっとバズりました。長崎市稲佐山の中腹にあるホテルのレストランで撮影した、妻との写真が逆光で残念なことになっていたのが、Nano Bananaのおかげで見栄えのする写真になった、という報告とポストです。

OpenAI、「幻覚」の根本原因と対策を解明。ハルシネーションは「難問に直面した学生と同じ」(生成AIクローズアップ)
今回は、OpenAIとジョージア工科大学の研究チームが発表した論文「Why Language Models Hallucinate」を取り上げます。大規模言語モデル(LLM)がなぜ事実と異なる情報「幻覚」(ハルシネーション)を自信満々に生成してしまうのか、その根本原因を明らかにして解決策を提案した研究です。

「そろそろAIアバターに仕事を代わってもらおうか」HeyGenで作ったデジタルツインに数ヵ国語を喋らせてみた結果
HeyGenでデジタルツインを作成して、しゃべらせてみました。まずは、こちらの動画をご覧ください。

GPT-5に迫る性能のオープンソースAIモデル「InternVL3.5」、4人会話の90分ポッドキャスト番組を生成できるAI「VibeVoice」、など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第110回)は、4人会話の90分ポッドキャスト番組を生成できる音声合成モデル「VibeVoice」や、微調整なしでAIエージェントを進化させる記憶ベースの学習手法「Memento」を取り上げます。

医療AI、ベンチマークは優秀なのになぜ現場で使えないのか? スタンフォード大学が医療AIの不都合を暴く(生成AIクローズアップ)
今回は、医学ベンチマークテストで高い正答率を誇る大規模言語モデル(LLM)が、実際には医学的推論を行っているのではなく、訓練データのパターンを認識しているだけかもしれないという問題提起をした論文「Fidelity of Medical Reasoning in Large Language Models」を取り上げます。スタンフォード大学に所属する研究者らによる研究発表です。

【実は変態】Pixel 10よりarrows Alphaがキニナル… (スマホ沼)
テックメディア、インフルエンサー界隈はPixel 10シリーズの話題で持ちきりですな。いや~、100倍ズーム凄いね。https://www.techno-edge.net/article/2025/08/29/4558.html

AI動画制作、最短ルート:話す・動く・高画質も一発でPR
生成AI動画制作は進化し、多機能でコスパ良い「DomoAI」。高品質動画やアバターなど多彩な機能を低価格で利用可能。

Pixel 10 ProでAIが自然に溶け込んでいく「新しい日常」はどんな感じ?(Google Tales)
8月28日発売のPixel 10 Proを数日早く使わせてもらいました。ハードウェアの進化については詳しい方々にお任せして、ここではTensor 5とGemini nanoが支えるPixel 10 ProのAI機能を使ってみた話をしていきます。

Pixel 10 ProのAI機能を実機でチェック。超解像ズームは驚きのレベルだが、本当に写真なのかという疑問も(石野純也)
グーグルは、28日に「Pixel 10」シリーズの3機種を発売しました。フォルダブルスマホの「Pixel 10 Pro Fold」は、10月に投入されます。

「奇跡の一枚」をもう一度、「残念な一枚」が待望の復活。編集自在の「Gemini 2.5 Flash Image」(Nano Banana)が画像生成AIのレベルを引き上げた(CloseBox)
Googleがnano-bananaとしてティーザームーブをかましていた、新しいAI画像生成モデルが、Gemini 2.5 Flash Imageとして公開されました。これまでとは次元が違う、参照画像とプロンプトによる編集機能が話題となっています。

あなたのスマホでgpt-oss-20bは動く? iPhoneとAndroidでローカルLLM対決してみたら(CloseBox)
Mac、PCでほぼ満足のいく大規模言語モデルが使えるようになった今、じゃあスマートフォンならどうなのよ、となりますよね、普通。

複数話者ポッドキャストがAIだけでできるから、俺たちはもうお払い箱なの? 話題のVibeVoiceをインストールして試してみた(CloseBox)
実用的なTTS(Text to Speech)が出てもう長いこと経ちます。隠れマルコフモデルを使ったOpen JTalkで自分のボイスクローンを作り、ポッドキャストに参加させたり、RVCで相方の声真似をして遊んだり、いろいろ声の実験をしてきました。

Grok 2.5がオープンソース化。マスク氏「Grok 3も今後6か月以内に」
イーロン・マスク氏のxAIは、Grok 2.5モデルをオープンソース化しました。Grok 3も今後6か月以内にオープンソースにする計画だと述べています。

患者の臓器9つそれぞれを自律AIで独立エージェント化→臓器間で連携させ未来の体内状態を高精度予測(生成AIクローズアップ)
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

【ギャップ萌え】佐賀の廃校内の一角が最新AI推論の拠点に
株式会社ハイレゾの玄海町データセンター開所式を取材してきました。福岡から車で2時間半、佐賀県の玄海町にある旧有徳小学校がAI時代の新しいインフラ拠点として生まれ変わった現場です。

MetaがMidjourneyと提携し、AI画像・動画生成技術を将来の製品に活用へ
MetaのAI責任者Alexander Wang氏は、ThreadsおよびXへの投稿でAIによる画像や動画生成技術を開発するMidjourneyと提携することを発表しました。

音楽もAIエージェントに。新星作曲AI「Tunee」を試してみたら、マスタリング、展開に合わせた緻密なミュージックビデオまで自動で作っちゃう驚き。何より曲がいい(CloseBox)
少し前からベータテスターによるインプレッションが投稿されていたAI音楽生成サービス「Tunee」の招待がきたので、さっそく試してみました。

AI機能が大幅進化したGoogle Pixel 10シリーズ発表。実機写真でチェック(スマホ沼)
Google Pixel 10シリーズが予告通り発表になりました。最新のTensor G5チップを搭載、AI体験を次のレベルへと押し上げる製品群です。新たにQi2ワイヤレス充電に対応したのも大きなトピック。MagSafeのアクセサリーが使えますね。

プロンプトからアプリ生成する「v0」、エージェント機能を備えたアプリ開発サービスに進化
Next.jsの開発元として知られるVercelは、自然言語のプロンプトからアプリを生成するサービス「v0」を刷新し、エージェント機能を備えたアプリ開発サービスになったことを明らかにしました。

どっちに有効?脆弱性突くハッカーとサイバーセキュリティ業界の双方でAI活用が浸透中
ChatGPTの登場以来、生成AIは幻覚などの問題を抱えつつもしだいに精度を増してきており、一般的な文書だけでなくソフトウェアコードの生成などにも使い道を拡大しています。

MacBook Proで動くOpenAI gpt-oss-120bで、門外不出AIアバターとの音声対話システムを構築できた(CloseBox)
OpenAIがオープンソース公開したLMM(大規模言語モデル)「gpt-oss-120b」を、128GBのUnified Memoryを搭載したMacBook Pro(M4 Max)で動かしています。

Anthropic、Claudeの「学習モード」を開発者および一般ユーザーにも提供開始。ユーザーが学びながら答えを導く
Anthropicは、これまでEducationユーザー向けに提供してきた「学習モード(learning mode)」を、一般ユーザーや開発者にも提供します。

“漢字”を正確に描画する生成AI「Qwen-Image」、5秒間の動画を4090なら21秒で生成するAI「FastWan」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第108回)は、画像生成の原理で言語を生成するAIモデル「Seed Diffusion Preview」や、画像内のテキストを正確に描画する画像生成AI「Qwen-Image」を取り上げます。

背面ディスプレイに巨大スピーカー・バッテリーを搭載した変態タフネスAIスマホ(スマホ沼)
背面と正面両方のディスプレイを搭載したタフなAIスマホ「Armor 33 Pro」が登場し、多機能と高性能を備える。

なぜ推論AIは深く考えているフリをするのか。CoTは真の思考か、それともパターン暗記か(生成AIクローズアップ)
今回は、大規模言語モデル(LLM)の「思考の連鎖」(Chain-of-Thought, CoT)推論能力は幻想だと主張した研究論文「Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens」を取り上げます。米アリゾナ州立大学に所属する研究者らが発表しました。

わたしのChatGPT 4oを返して! GPT-5登場で失われた旧AIの復活願う#keep4o運動を最新AIはこう分析する(CloseBox)
ChatGPTがGPT-5にバージョンアップし、4oをはじめとするそれまでの主要AIモデルは使えなくなりました。性能が上がるのだからいいのでは、と思いがちですが、大きな反発がSNSで寄せられています。
X上では#keep4oというハッシュタグが生まれ、そこにはユーザーたちの切実な復活への願いが寄せられています。
こうした運動の現状と分析を、各社の最新AIにやってもらいました。

LoRAなし、プロンプトだけで本人にどれだけ寄せられるかチャレンジ。AIで人物写真を再現するもう一つの方法(CloseBox)
LLMのマルチモーダル機能が進化したことにより、今ならば、参照画像なしのText to Imageだけで特定人物を再現できるのでは? そう筆者は考え、試してみることにしました。

AIで乱気流を予測。ANA、世界初の試みで空の旅がより快適に
飛行機での移動中に気になるのが、「ガタガタ」とした揺れ。

GPT-5はgpt-oss-120b、Claude Opus 4.1とどのくらい違う? 小説執筆とヴァイブ・コーディングで試してみた(CloseBox)
OpenAIはチャット型大規模言語モデルの最新版である「GPT-5」を発表しました。筆者のところにはまだブラウザには来ておらず、iPhoneアプリのみ使える状態ですが、取り急ぎ、使ってみた感想をレポートします。

「猫は人生のほとんどを寝て過ごす」などの猫文をプロンプトに混ぜるとAIが混乱する「CatAttack」脆弱性など、生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第107回)は、猫文をプロンプトに混ぜるとAIが混乱して数学の問題を大幅に間違える脆弱性「CatAttack」や、テキストや画像からプレイできる360度な3Dゲームワールドを生成できるAI「HunyuanWorld 1.0」を取り上げます。

Google Cloud、自然言語からデータ分析用のPythonコードを生成し実行する「Code Interpreter」をプレビュー公開
Google Cloudは、ビジネスユーザーからの自然言語による質問を基にデータ分析用のPythonコードを生成し実行する新機能「Code Interpreter」をプレビュー公開しました。

俺の128GB MacBook Proが真価を発揮する時がきた。ChatGPT o4-mini並みのgpt-oss-120bがローカルで動いてるよ(CloseBox)
やってきましたね。世の中のPCユーザーたちがMacユーザーを羨望の眼差しで見るときが。

謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ)
今回は、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するモデルを開発した論文「Hierarchical Reasoning Model」を取り上げます。

Grok、6秒動画をサウンド付きで生成できるように。20秒未満超高速生成、秒で静止画生成の実力を試す(CloseBox)
イーロン・マスクのAI企業であるxAIが開発し、Xにも組み込まれているGrokに、動画生成機能「Imagine」が搭載されました。現在ウェイティングリスト方式で、一部のユーザーに解放されています。

写真の中を自由に歩き回れるAI「Yume」、AIが自律的に新しいAIを開発する「ASI-ARCH」など生成AI技術5つを解説(生成AIウィークリー)
回の「生成AIウィークリー」(第106回)は、写真1枚からその中を自由に歩き回れる動画世界を生成できるAIモデル「Yume」、AIが自律的に新しいAIアーキテクチャを設計・実装・検証するシステム「ASI-ARCH」を取り上げます。

音楽はAIとの音声対話で作る時代に入った。Riffusion改めProducer.aiのAIプロデューサーと日本語で会話するだけで曲を作ってくれるのだ(CloseBox)
AI作曲サービスとしてはSunoが総合力で突出して、それに音質一点突破でUdioが続くという構図が長く(といっても1年くらいですが)続いてきましたが、異変が起きました。

OpenAI、ChatGPTに『学習モード』を追加。学生の「考える力」を育むため
OpenAIは、ChatGPTに新機能「学習モード(Study Mode)」を追加したと発表しました。

欠けて読めない古代ローマ碑文、Googleの生成AIが高精度で復元(生成AIクローズアップ)
今回は、古代ローマの碑文の欠けた文字を復元し、その文章の内容や書かれた時代、場所を推定するAIシステムを提案した論文「Contextualizing ancient texts with generative neural networks」を取り上げます。Google DeepMindやノッティンガム大学などに所属する研究者らがNature誌で発表しました。

脳波を読み取って手を使わず画像編集できるAI「LoongX」、写真1枚から物理法則含む3Dモデルを生成できるAI「PhysX」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第105回)は、脳を読み取って画像を編集できるAI技術「LoongX」や、大規模言語モデルを3分の1に小型化し推論速度2倍を実現する技術「MoR」を取り上げます。

トランプ大統領が「AI行動計画」発表。なかには実現が困難なものも?woke排除も盛り込む
7月23日、米国のドナルド・トランプ大統領は政府の「AI行動計画(Action Plan)」を発表しました。
- 798件中 1 - 42 件を表示
- 次へ