生成AIウィークリー

1週間分の生成AI論文から重要なものをピックアップして解説する連載です。

AIが生徒に囲碁を教えた結果、男女の実力差が解消。男女差は人間指導が原因?(生成AIクローズアップ) 画像
テクノロジー

AIが生徒に囲碁を教えた結果、男女の実力差が解消。男女差は人間指導が原因?(生成AIクローズアップ)

今回は、AI教師が囲碁を生徒に指導すると学習効果はどうなるかを調査した研究論文「Can Artificial Intelligence Improve Gender Equality? Evidence from a Natural Experiment」に注目します。

リアルタイム文章読み上げAI「CosyVoice 2」、アニメの中間フレーム自動生成AI「AniDoc」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

リアルタイム文章読み上げAI「CosyVoice 2」、アニメの中間フレーム自動生成AI「AniDoc」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第76回)では、アニメの自動彩色と中間フレームを生成できるAIモデル「AniDoc」と、Metaの動画理解AIモデル「Apollo」をご紹介します。

OpenAI「o3」は本当に“AGI”に近いのか? AGIレベルを評価する「ARC-AGI」の開発者が解説(生成AIクローズアップ) 画像
テクノロジー

OpenAI「o3」は本当に“AGI”に近いのか? AGIレベルを評価する「ARC-AGI」の開発者が解説(生成AIクローズアップ)

OpenAIが最近発表したAIモデル「o3」と汎用人工知能(AGI)について、AGIの性能を評価するベンチマーク「ARC-AGI」の開発者フランソワ・ショレ氏(Googleの研究者)が考察した記事に注目します。

MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第75回)では、Microsoftの新しい言語モデル「Phi-4」や、カメラ越しに映る現実をリアルタイムに理解するAIモデル「IXC2.5-OL」を取り上げます。

AIは無知をどこまで認識できるか? 人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた(生成AIクローズアップ) 画像
テクノロジー

AIは無知をどこまで認識できるか? 人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた(生成AIクローズアップ)

AIたちが「答えが分からない」と自身の無知を認識できるかを検証した論文「The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz」を取り上げます。

Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説(生成AIウィークリー)

OpenAIは、ChatGPTの新しい有料プラン「ChatGPT Pro」を発表しました。価格は月額200ドルで、最高レベルの「OpenAI o1」を含むすべてのモデルを無制限で使用することができます。

AIで「量子もつれ」の新たな生成方法を発見。量子インターネット構築が容易になる可能性(生成AIクローズアップ) 画像
テクノロジー

AIで「量子もつれ」の新たな生成方法を発見。量子インターネット構築が容易になる可能性(生成AIクローズアップ)

中国の南京大学やドイツのMax Planck Institute for the Science of Lightに所属する研究者らが、AIシステムを用いて量子もつれの新しい生成方法を発見した論文「Entangling Independent Particles by Path Identity」を解説します。

NVIDIAの最新生成AI。高解像度画像をFLUX.1の100倍以上高速に作り出すAI「Sana」、テキストから高品質な3Dアセットを生成するAI「Edify 3D」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

NVIDIAの最新生成AI。高解像度画像をFLUX.1の100倍以上高速に作り出すAI「Sana」、テキストから高品質な3Dアセットを生成するAI「Edify 3D」など生成AI技術5つを解説(生成AIウィークリー)

NVIDIAが主導して開発した、高解像度の画像を高速に生成するモデル「Sana」と、テキストから3Dアセットを生成するAI「Edify 3D」などを紹介します

数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告(生成AIクローズアップ) 画像
テクノロジー

数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告(生成AIクローズアップ)

大規模言語モデル(LLM)の数十億のパラメータの中でたった1つのパラメータを削除するだけで、モデルのテキスト生成能力が完全に崩壊することを発見した論文「The Super Weight in Large Language Models」について解説します。

Claude 3.5 Computer Useのゲーム操作はどのレベル? 映像内の混雑シーンでも高速に動く物体を追跡できる「SAMURAI」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Claude 3.5 Computer Useのゲーム操作はどのレベル? 映像内の混雑シーンでも高速に動く物体を追跡できる「SAMURAI」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第73回)では、生成AIでコンピュータを操作する「Claude 3.5 Computer Use」の性能調査や、動画内の動く物体を追跡し分離するAI「SAMURAI」を取り上げます。

“実在する人間”の考えをクローンした自律AIを1000体以上生成。高い精度で世論調査や社会の反応予測など活用へ(生成AIクローズアップ) 画像
テクノロジー

“実在する人間”の考えをクローンした自律AIを1000体以上生成。高い精度で世論調査や社会の反応予測など活用へ(生成AIクローズアップ)

実在する人の性格や考えを忠実にコピーしたAIエージェント(自律AI)を1000体以上生成した論文「Generative Agent Simulations of 1,000 People」を取り上げます。

自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第72回)では、GPT-4oのコーディング能力に匹敵するオープンソースなコード生成AI「Qwen2.5-Coder」や、AI生成の画像の一部のみに電子透かしを入れることができる「WAM」を取り上げます。

「生成AI vs. 著名な詩人」どっちの詩が好き? シェイクスピアやディキンソンなどとAI詩を比較(生成AIクローズアップ) 画像
テクノロジー

「生成AI vs. 著名な詩人」どっちの詩が好き? シェイクスピアやディキンソンなどとAI詩を比較(生成AIクローズアップ)

AIが生成した詩と詩人による作品とが区別できるのか、またどちらが好まれるかを調査した論文「AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably」に注目します。

PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第71回)では、1枚の画像から3D/4Dシーンを生成するAIモデル「DimensionX」や、テンセント開発の巨大オープンソース大規模言語モデル「Hunyuan-Large」を取り上げます。

“生成AI活用”の上位10%は生産性が2倍近く向上するが「下位3分の1は効果なし」の理由。研究者1000人以上でMITが検証(生成AIクローズアップ) 画像
テクノロジー

“生成AI活用”の上位10%は生産性が2倍近く向上するが「下位3分の1は効果なし」の理由。研究者1000人以上でMITが検証(生成AIクローズアップ)

生成AIが科学的発見とイノベーションにどのような影響を与えるのかについて、研究者たちに生成AIツールを使わせて、その効果を検証した論文「Artificial Intelligence, Scientific Discovery, and Product Innovation」に注目します。

ゲームエンジン不要。プレイ操作に応じてAIがリアルタイム生成するオープンワールドゲーム「Oasis」、Minecraftに500体の自律AIによる文明構築など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

ゲームエンジン不要。プレイ操作に応じてAIがリアルタイム生成するオープンワールドゲーム「Oasis」、Minecraftに500体の自律AIによる文明構築など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第70回)では、劣化した写真を修復するAIモデル「DreamClear」や、新しいText-to-Speechモデル「MaskGCT」を取り上げます。

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む(生成AIクローズアップ)  画像
テクノロジー

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む(生成AIクローズアップ) 

今回は、自然界に存在しないDNA配列を生成できるAIシステムを提案した論文「Machine-guided design of cell-type-targeting cis-regulatory elements」に注目します。

「“毒入り音楽”でAIに学習させない」――人には聞こえないノイズを音声にこっそり入れ訓練不能にする技術(生成AIクローズアップ) 画像
テクノロジー

「“毒入り音楽”でAIに学習させない」――人には聞こえないノイズを音声にこっそり入れ訓練不能にする技術(生成AIクローズアップ)

人には聞こえないノイズを音楽に埋め込み、その音声をAIモデルが学習できないようにする防御フレームワークを提案した論文「HarmonyCloak: Making Music Unlearnable for Generative AI」を取り上げます。

1000憶パラメータLLMをシングルCPUでローカル実行できる「bitnet.cpp 1.0」、新テキスト読み上げAI「F5-TTS」など生成AI技術6つを解説(生成AIウィークリー) 画像
テクノロジー

1000憶パラメータLLMをシングルCPUでローカル実行できる「bitnet.cpp 1.0」、新テキスト読み上げAI「F5-TTS」など生成AI技術6つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第68回)では、テキストを読み上げるTTSシステム「F5-TTS」や、会話AIモデル「Ichigo」を取り上げます。また、単一CPUでLLMで実行できる、Microsoftの1ビットLLM推論フレームワーク「bitnet.cpp 1.0」などをご紹介します。

ノーベル化学賞受賞の「AlphaFold2」、精子と卵子が結びつく仕組みを新発見(生成AIクローズアップ) 画像
テクノロジー

ノーベル化学賞受賞の「AlphaFold2」、精子と卵子が結びつく仕組みを新発見(生成AIクローズアップ)

今年のノーベル化学賞を受賞した2人が開発に貢献したタンパク質構造AI予測ツール「AlphaFold」シリーズによって、精子と卵子の結合メカニズムを明らかにした論文「A conserved fertilization complex bridges sperm and egg in vertebrates」に注目します。

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第67回)では、商用利用可能なマルチモーダル大規模言語モデル「ARIA」と動画生成AI「Pyramid Flow」などを取り上げます。

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析(生成AIクローズアップ) 画像
テクノロジー

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析(生成AIクローズアップ)

AIがRNAの未知なる領域を解析し、7万以上の新種ウイルスを発見した論文「Using artificial intelligence to document the hidden RNA virosphere」について。

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、日本語専用LLMベンチマーク「JMMMU」や、Appleの画像深度推定モデル「Depth Pro」を取り上げます。また、Metaが開発した動画生成AI「MovieGen」や、テキストや画像1枚から3Dコンテンツを生成する「Flex3D」をご紹介します。

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ) 画像
テクノロジー

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ)

今回は、スマートグラスに映る他人の顔から名前や住所などの個人情報を特定する技術を説明したドキュメント「I-XRAY: The AI Glasses That Reveal Anyone’s Personal Details—Home Address, Name, Phone Number, and More—Just from Looking at Them」に注目します。

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ) 画像
テクノロジー

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ)

今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第65回)では、対話スピードや会話中の割り込みの自然さなど、人間と話しているかのような会話ができるモデル「Moshi」や、ByteDanceが開発した音楽生成・編集モデル「Seed-Music」を取り上げます。

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ) 画像
テクノロジー

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ)

「私はロボットではありません」でお馴染みのGoogleが開発する「CAPTCHA」を突破するAIシステムを提案した論文「Breaking reCAPTCHAv2」を取り上げます。

オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第64回)では、オープンソースな音声AI技術を2つ、AIと音声対話できる「LLaMA-Omni」と、テキストを読み上げる「Fish Speech V1.4」を取り上げます。

生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ) 画像
テクノロジー

生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ)

1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、大規模言語モデル(LLM)は自身が出力する「幻覚」(ハルシネーション)からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。

最高性能うたうオープンソースLLM「Reflection 70B」、動画生成AIでスーパーマリオのプレイ映像を生成する「MarioVGG」など生成AI技術6つを解説(生成AIウィークリー) 画像
テクノロジー

最高性能うたうオープンソースLLM「Reflection 70B」、動画生成AIでスーパーマリオのプレイ映像を生成する「MarioVGG」など生成AI技術6つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第63回)では、GPT-4oやClaude 3.5 SonnetなどのクローズドLLMと同等以上の性能を謳うオープンソースLLM「Reflection 70B」や、画像生成AI「FLUX」をベースにした音楽生成AI「FluxMusic」などを取り上げます。

R18成人向け文章も生成できる高性能ローカルAI「Command R+」最新版登場、プレイ画面をリアタイで画像生成できるゲームエンジン「GameNGen」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

R18成人向け文章も生成できる高性能ローカルAI「Command R+」最新版登場、プレイ画面をリアタイで画像生成できるゲームエンジン「GameNGen」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第62回)では、主要LLMでは制限がかかるような内容でも精度高く出力できるローカルLLM「Command R+」の最新バージョンや、論文などのドキュメントとチャットできるAIインタフェース「kotaemon」を取り上げます。

NVIDIA他、長い動画を理解する視覚言語モデル『LongVILA』開発・画像とテキストを1つのモデルで統一する『Show-o』など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

NVIDIA他、長い動画を理解する視覚言語モデル『LongVILA』開発・画像とテキストを1つのモデルで統一する『Show-o』など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

AIによる科学的発見を目指す「KAN 2.0」新星ニューラルネットワークアーキテクチャKANを科学に応用(生成AI論文ピックアップ) 画像
テクノロジー

AIによる科学的発見を目指す「KAN 2.0」新星ニューラルネットワークアーキテクチャKANを科学に応用(生成AI論文ピックアップ)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

Meta Reality Labs、人の画像から姿勢や立体形状を高精度に理解するビジョンモデル「Sapiens」発表。3億枚以上の画像で学習(生成AI論文ピックアップ) 画像
テクノロジー

Meta Reality Labs、人の画像から姿勢や立体形状を高精度に理解するビジョンモデル「Sapiens」発表。3億枚以上の画像で学習(生成AI論文ピックアップ)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

自律AIが自律AIを改良し続ける自動設計システム「ADAS」発表。手動設計を大幅に上回る性能 画像
テクノロジー

自律AIが自律AIを改良し続ける自動設計システム「ADAS」発表。手動設計を大幅に上回る性能

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

“2万単語”を一発生成する言語AI「LongWriter」、論文執筆や査読など科学研究全般を自動化する「The AI Scientist」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

“2万単語”を一発生成する言語AI「LongWriter」、論文執筆や査読など科学研究全般を自動化する「The AI Scientist」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第60回)では、2万語を一度に出力するモデル「LongWriter」、Googleの画像生成AI「Imagen 3」、そして科学研究を支援する「The AI Scientist」と「OpenResearcher」などを取り上げます。

Apple開発の画像生成AI「マトリョーシカ拡散モデル」、iPadでリアルタイムに動画を理解するGPT-4V超えAI「MiniCPM-V 2.6」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Apple開発の画像生成AI「マトリョーシカ拡散モデル」、iPadでリアルタイムに動画を理解するGPT-4V超えAI「MiniCPM-V 2.6」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第59回)では、オープンソースの動画生成AI「CogVideoX」や、動画理解でGPT-4VやClaude 3.5 Sonnetなどを精度で上回るMLLM「MiniCPM-V 2.6」を取り上げます

元Stable Diffusion開発チームによる高性能画像生成AI「FLUX.1」、Perplexity精度のオープンソース検索AI「MindSearch」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

元Stable Diffusion開発チームによる高性能画像生成AI「FLUX.1」、Perplexity精度のオープンソース検索AI「MindSearch」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第58回)では、先日OpenAIが発表した「SearchGPT」など、Webのタイムリーな情報と大規模言語モデルを組みわせた検索AIのオープンソースモデル「MindSearch」や、Stability AIが発表した、単一の入力画像から3Dメッシュを0.5秒で生成する「Stable Fast 3D」を取り上げます。

AIが量産するデータで何度も学習するAIは「モデル崩壊」する研究結果、SD級の大型画像生成AIを「約29万円」「2.6日」の高コスパで訓練できるSonyAI開発「MicroDiT」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

AIが量産するデータで何度も学習するAIは「モデル崩壊」する研究結果、SD級の大型画像生成AIを「約29万円」「2.6日」の高コスパで訓練できるSonyAI開発「MicroDiT」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第57回)では、生成AIが生成したコンテンツを生成AIが学習し続けると性能低下が見られ、モデル崩壊が起きるという研究報告を取り上げます。また、Sony AIが大型の画像生成AI(11.6億パラメータ)の訓練を8台のNVIDIA H100 GPUを使用してわずか2.6日で完了し、しかもそれが約29万円という高いコストパフォーマンスを達成した手法「MicroDiT」をご紹介します。

AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第56回)では、AIとユーザーの対話内容を長期記録し、LLMの応答をそのユーザーにパーソナライズしていくメモリ機能「Mem0」や、音声の理解に優れている大規模言語モデル「Qwen2-Audio」などを取り上げます。

漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。