この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第118回)は、既存の大規模言語モデル(LLM)を特定タスク向けに1.58ビット精度にファインチューニングする軽量アプローチ「BitNet Distillation」や、写真1枚から複数視点画像、動画までを入力に高精度3D空間を生成できるAIモデル「HunyuanWorld-Mirror」を取り上げます。
内容を深掘りしたいサイトのURLを入れるだけで、二人の対話によるポッドキャスト風音声や、図解付きの動画解説を生成してくれるGoogleのNotebookLM。
NTT西日本は、音声AI事業の「VOICENCE(ボイセンス)」を発表しました。
OpenAIが、音楽を生成するAIツールを開発している模様です。
今回は、大規模言語モデル(LLM)が低品質なウェブテキストに継続的に晒されることで、認知機能の低下を引き起こすことを明らかにした論文「LLMs Can Get “Brain Rot”!」を取り上げます。
日頃筆者が便利で使っているComfyUIのWorkflowをご紹介したい。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第117回)は、過度な圧縮をしない画像生成AI技術「RAE」や、長時間動画をリアルタイムに理解できるAIモデル「StreamingVLM」を取り上げます。
OpenAIは10月21日、ChatGPTを統合し、ウェブブラウジング中にAIチャットボットとやり取りができるブラウザー「ChatGPT Atlas」を発表しました。macOS版がまずリリースされ、その後「近日中」にWindows版、iOS版、Android版が登場する予定です。
AIによるブラウザベースのエージェントがついに一線を超えました。自分的にですが。
テクノエッジ編集部では、生成AIグラビア実践ワークショップ第3期第5回を3月19日に開催します。今回はRTX 5090 GPUの生成AIへの活用について、特に解説します。
特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、AIの生成において、同じような答えばかり返ってしまう問題を解決する方法を提案した論文「Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity」を取り上げます。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第116回)は、巨大AIを凌駕する、わずか700万パラメータの小型AI「TRM」や、AIが9,300人の顧客を演じて製品の購買意欲を予測する消費者調査シミュレーションシステムを取り上げます。
PLAUDが、AIボイスレコーダーのフラッグシップモデル「Plaud Note Pro(プラウド ノート プロ)」を10月14日に発売しました。価格は3万800円。製品とは関係ありませんが、法人としてのPLAUD株式会社はすべて大文字、ブランドとしてはPlaudで最初だけ大文字だそうです。
Qwen-Imageで大物txt2imgは終わりかなと思っていた矢先の9月9日、 HunyuanImage-2.1 がリリース。その後も怒涛のアップデートが起きている。
今回は、夢を脳波(EEG)信号で解読し、AIを用いて画像化するためのデータセット「Dream2Image」を提案した論文を取り上げます
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第115回)は、人脳の神経回路を模倣した言語モデル「Dragon Hatchling」や、リアルタイムに指示して途中で変更しながら長時間動画を生成するAI「LONGLIVE」を取り上げます。
リアルな登場人物を固定して使いたい場合にはどうしたら良いのでしょうか?
OpenAIが、AMDと数百億ドル規模のGPU供給契約を締結したと発表しました。
OpenAIのサム・アルトマンCEOと元アップルのチーフデザイナーであるジョナサン・アイブ氏が手掛ける「新世代のAI搭載コンピューター製品」の開発が難航している模様です。
今回は動画生成AI「Sora 2」を悪用する動きと、OpenAIのサム・アルトマンCEOが著作権に関した今後の変更方針を言及した内容を取り上げます。
Sora 2祭りはまだ続いていますが、Sora 2の上位版が登場しました。Sora 2 Proです。
AI検索スタートアップのPerplexityは、今年7月に月額200ドルのMaxプラン登録ユーザー向けとしてリリースしたばかりのAI搭載ウェブブラウザー「Comet」を、このたび無料化し、誰でも利用可能にしたと発表しました。
今回の「生成AIウィークリー」(第114回)は、アリババ開発のテキスト・画像・音声・動画を統合したマルチモーダルAIモデル「Qwen3-Omni」や、マイクロソフト開発のAIにゼロからソフトウェアリポジトリを生成させる「ZeroRepo」を取り上げます。
Sora 2が公開され、日本のiPhoneユーザーはおおいに遊んでいるようで何よりです。筆者は以前からやっているミュージックビデオ制作でSora 2を活用してみたので、そのやり方を書き留めておきます。
マイクロソフトは、Windows上でローカルAIを実行するための基盤となる「Windows ML」の正式版リリースを発表しました。
OpenAIは10月1日(米国では9月30日)、動画生成AIモデルであるSoraの次期バージョン、「Sora 2」を発表しました。
GoogleのLearnLMチームが開発した、生徒の興味や理解によって生成AIがその人に合わせた内容に自動変更する教科書システムを提案した論文「Towards an AI-Augmented Textbook」を取り上げます。
2025年8月
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第113回)は、AIの世界理解を向上させる大規模データセット「OmniWorld」や、アリババグループ開発のオープンソースAIエージェント「Tongyi DeepResearch」を取り上げます。
9月26日、AI作曲サービスのSunoとTuneeがそれぞれ新機能を発表しました。Sunoは待望のDAW内蔵とMIDI出力を、これまでクローズドベータだったTuneeは一般公開を始め、1つのプロンプトから3つの歌詞・音楽スタイルをそれぞれ2曲ずつ、合計6曲を同時に生成できるようになりました。
OpenAIは、月額200ドル(約3万円)のChatGPT Proプランに新機能「Pulse」を追加すると発表しました。
Google DeepMindとトロント大学の研究者らによるこの研究は、AIエージェントが人間の監視を超えた速度と規模で相互に取引を行う「AIエージェント経済」という未来について、示唆を提供しています。
AI作曲サービスの最高峰といってもいいSunoがバージョンアップを重ね、9月24日にv5に到達しました。まだDAW完全対応、MIDI出力は実装していませんが、その前に作曲モデルを刷新した感じです。
NVIDIAは、ChatGPTを開発するOpenAIに最大1000億ドル(約14兆7800億円)を投資し、同社のAI向けGPU数百万基を使用する、最大10GWの「次世代AIインフラ」を構築することを明らかにしました。
6~8月、休載していたこともあり、今回と次回はこの間リリースされたものなどを順にご紹介し、現時点=9月に追い付きたいと思う。まず6月から。
AIに同じ質問すると毎回微妙に違う返答になる謎を解き明かした研究や、バイトダンスが開発した文字・画像・音声から話す人物動画を生成できるAIモデル「HuMo」を取り上げます。
年に一度のカンファレンス Meta Connect 2025で、Metaのマーク・ザッカーバーグがAIグラスの新製品 Ray-Ban Meta Display を発表しました。
都市部で携帯用の電波が届かない場所は見つけることが難しい。そんな中で、ローカルLLMを使う必要があるのか? そう考えたスタッフは電波的秘境、石神井公園駅ライオンズマンション地下飲食街にあるつけ麺の名店、「麺処 井の庄」に向かった。
OpenAIは、ChatGPTが18歳未満のユーザーと接する際に、プライバシーや自由な会話よりも安全性を優先するためのポリシー変更を行うことを明らかにしました。
9月16日、Apple Intelligenceを大々的にフィーチャーしたOSアップデートが行われました。純正ローカルLLMとチャットすることができました。
今回は、巨大なデータセンターに依存せず、世界中に散らばる個人PCが協力してAIを育てる分散型アプローチを提案した論文「Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing」を取り上げます。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第111回)は、まずTencentから2つの技術、小型の翻訳モデル「Hunyuan-MT」と1枚の画像から探索可能な3D世界を生成できる「HunyuanWorld-Voyager」をご紹介します。