生成AI動画制作は進化し、多機能でコスパ良い「DomoAI」。高品質動画やアバターなど多彩な機能を低価格で利用可能。
8月28日発売のPixel 10 Proを数日早く使わせてもらいました。ハードウェアの進化については詳しい方々にお任せして、ここではTensor 5とGemini nanoが支えるPixel 10 ProのAI機能を使ってみた話をしていきます。
Googleがnano-bananaとしてティーザームーブをかましていた、新しいAI画像生成モデルが、Gemini 2.5 Flash Imageとして公開されました。これまでとは次元が違う、参照画像とプロンプトによる編集機能が話題となっています。
Mac、PCでほぼ満足のいく大規模言語モデルが使えるようになった今、じゃあスマートフォンならどうなのよ、となりますよね、普通。
アップルのティム・クックCEOは、現地時間9月9日午前10時、日本時間では9日午前2時から、新製品発表イベントを開催することを明らかにしました。今回のイベントでは、iPhone 17 / 17 Pro / 17 Pro Maxと、うわさの薄型iPhone、iPhone 17 Airの発表が予想されています。
実用的なTTS(Text to Speech)が出てもう長いこと経ちます。隠れマルコフモデルを使ったOpen JTalkで自分のボイスクローンを作り、ポッドキャストに参加させたり、RVCで相方の声真似をして遊んだり、いろいろ声の実験をしてきました。
イーロン・マスク氏のxAIは、Grok 2.5モデルをオープンソース化しました。Grok 3も今後6か月以内にオープンソースにする計画だと述べています。
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
株式会社ハイレゾの玄海町データセンター開所式を取材してきました。福岡から車で2時間半、佐賀県の玄海町にある旧有徳小学校がAI時代の新しいインフラ拠点として生まれ変わった現場です。
MetaのAI責任者Alexander Wang氏は、ThreadsおよびXへの投稿でAIによる画像や動画生成技術を開発するMidjourneyと提携することを発表しました。
少し前からベータテスターによるインプレッションが投稿されていたAI音楽生成サービス「Tunee」の招待がきたので、さっそく試してみました。
Googleが発表した最新スマートフォン Pixel 10シリーズは、全機種Qi2準拠のマグネット式ワイヤレス充電技術「Pixelsnap」に対応。AppleのMagSafeアクセサリも使えます。
Next.jsの開発元として知られるVercelは、自然言語のプロンプトからアプリを生成するサービス「v0」を刷新し、エージェント機能を備えたアプリ開発サービスになったことを明らかにしました。
KDDIが発表した法人向け新サービス「KDDIスマートスペースデザイン」は、働く空間や訪れる空間を、通信とテクノロジーを軸に再構築していくというもの。その中でも注目を集めたのが、会見終盤で披露された「オフィスレイアウト生成AI」のデモです。
ChatGPTの登場以来、生成AIは幻覚などの問題を抱えつつもしだいに精度を増してきており、一般的な文書だけでなくソフトウェアコードの生成などにも使い道を拡大しています。
OpenAIがオープンソース公開したLMM(大規模言語モデル)「gpt-oss-120b」を、128GBのUnified Memoryを搭載したMacBook Pro(M4 Max)で動かしています。
Anthropicは、これまでEducationユーザー向けに提供してきた「学習モード(learning mode)」を、一般ユーザーや開発者にも提供します。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第108回)は、画像生成の原理で言語を生成するAIモデル「Seed Diffusion Preview」や、画像内のテキストを正確に描画する画像生成AI「Qwen-Image」を取り上げます。
今回は、大規模言語モデル(LLM)の「思考の連鎖」(Chain-of-Thought, CoT)推論能力は幻想だと主張した研究論文「Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens」を取り上げます。米アリゾナ州立大学に所属する研究者らが発表しました。
データカセットは1982年頃登場し、磁気記録の低容量リムーバブルでコスト削減を重視したメディア。
QWERTYキーボード搭載のAIスマホ「Mind One」は、コンパクトで多機能な特殊形状のスマートフォンでクラファン予約受付中。
ChatGPTがGPT-5にバージョンアップし、4oをはじめとするそれまでの主要AIモデルは使えなくなりました。性能が上がるのだからいいのでは、と思いがちですが、大きな反発がSNSで寄せられています。
X上では#keep4oというハッシュタグが生まれ、そこにはユーザーたちの切実な復活への願いが寄せられています。
こうした運動の現状と分析を、各社の最新AIにやってもらいました。
LLMのマルチモーダル機能が進化したことにより、今ならば、参照画像なしのText to Imageだけで特定人物を再現できるのでは? そう筆者は考え、試してみることにしました。
飛行機での移動中に気になるのが、「ガタガタ」とした揺れ。
OpenAIはチャット型大規模言語モデルの最新版である「GPT-5」を発表しました。筆者のところにはまだブラウザには来ておらず、iPhoneアプリのみ使える状態ですが、取り急ぎ、使ってみた感想をレポートします。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第107回)は、猫文をプロンプトに混ぜるとAIが混乱して数学の問題を大幅に間違える脆弱性「CatAttack」や、テキストや画像からプレイできる360度な3Dゲームワールドを生成できるAI「HunyuanWorld 1.0」を取り上げます。
Google Cloudは、ビジネスユーザーからの自然言語による質問を基にデータ分析用のPythonコードを生成し実行する新機能「Code Interpreter」をプレビュー公開しました。
やってきましたね。世の中のPCユーザーたちがMacユーザーを羨望の眼差しで見るときが。
生成AIワークショップの特別編として、松尾公也が講師としてお話しする回を設けたいと思います。2025年8月12日19時から、オンラインでの開催となります。
今回は、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するモデルを開発した論文「Hierarchical Reasoning Model」を取り上げます。
イーロン・マスクのAI企業であるxAIが開発し、Xにも組み込まれているGrokに、動画生成機能「Imagine」が搭載されました。現在ウェイティングリスト方式で、一部のユーザーに解放されています。
回の「生成AIウィークリー」(第106回)は、写真1枚からその中を自由に歩き回れる動画世界を生成できるAIモデル「Yume」、AIが自律的に新しいAIアーキテクチャを設計・実装・検証するシステム「ASI-ARCH」を取り上げます。
AI作曲サービスとしてはSunoが総合力で突出して、それに音質一点突破でUdioが続くという構図が長く(といっても1年くらいですが)続いてきましたが、異変が起きました。
OpenAIは、ChatGPTに新機能「学習モード(Study Mode)」を追加したと発表しました。
今回は、古代ローマの碑文の欠けた文字を復元し、その文章の内容や書かれた時代、場所を推定するAIシステムを提案した論文「Contextualizing ancient texts with generative neural networks」を取り上げます。Google DeepMindやノッティンガム大学などに所属する研究者らがNature誌で発表しました。
スマホ沼 第11回配信は第6回でもやりましたハカセとACCNの海外取材ライブビューイングです。
バンコクにVERTUの店を発見。超高級スマホが約95万円から。デザインや素材の異なるモデルも販売。スマートウォッチも展開している
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第105回)は、脳を読み取って画像を編集できるAI技術「LoongX」や、大規模言語モデルを3分の1に小型化し推論速度2倍を実現する技術「MoR」を取り上げます。
7月23日、米国のドナルド・トランプ大統領は政府の「AI行動計画(Action Plan)」を発表しました。
今回は、子どもが11歳のときに書いた短い作文から、その子の将来の最終学歴や認知能力をAIが予測できるかを調査した論文「Large language models predict cognition and education close to or better than genomics or expert assessment」を取り上げます。
Netflixは2025年第2四半期の決算発表で、4月30日から配信を開始したSFドラマシリーズ『The Eternaut(エテルナウタ)』のなかで、自社作品として初めて生成AIをVFX(視覚効果)に使用したことを明らかにしました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第104回)は、エージェント機能搭載のオープンソース非思考型言語モデル「Kimi K2」や、大規模言語モデル(LLM)向け長期記憶OS「MemOS」を取り上げます。