生成AIウィークリー

1週間分の生成AI論文から重要なものをピックアップして解説する連載です。

4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)

民生用GPUはNVIDIA RTX 4090の24GBメモリが最大ですが、これでLLMのファインチューニングは困難とされています。それを可能にするという技術が発表されました。

複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)

今週も、生成AIの重要論文5本を解説します。透明含む複数レイヤーを同時に画像生成できるAI「LayerDiffuse」、音楽を文字のように扱う音楽生成AI「ChatMusician」など。

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー)

今週の生成AIウィークリーは、AIの“パラメータ”を生成するAI「P-diff」、過去最高精度のリアルタイム物体検出器「YOLOv9」など重要論文5本を解説します。

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー)

1週間分の生成AI関連論文の中から重要なものをピックアップする連載。今回は、Gemini 1.5、LoRA改良版、WindowsのAIエージェント、長時間動画にも対応するマルチモーダルAIなど5本を紹介します。

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー)

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」などを解説します。

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー)

iPhone 15 Proで0.2秒以内に高品質な512×512画像を生成することにGoogleが成功。生成AIに関する最新論文5本を解説します。

Amazonが服の仮想試着AI「Diffuse to Choose」、画像内の物体分離指示できる「Grounded SAM」、動画の高品質な奥行き推定「Depth Anything」など重要論文6本を解説(生成AIウィークリー) 画像
テクノロジー

Amazonが服の仮想試着AI「Diffuse to Choose」、画像内の物体分離指示できる「Grounded SAM」、動画の高品質な奥行き推定「Depth Anything」など重要論文6本を解説(生成AIウィークリー)

今回の生成AI論文解説はいつもより1本多い、6本分です。中でもAmazonのバーチャル試着技術は実用性が高そうです。

GPT-4のコード生成精度を2倍以上向上させる「AlphaCodium」、写真1枚から本人性を維持した画像を量産できる「InstantID」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

GPT-4のコード生成精度を2倍以上向上させる「AlphaCodium」、写真1枚から本人性を維持した画像を量産できる「InstantID」など重要論文5本を解説(生成AIウィークリー)

PhotoMakerのライバルともいうべき技術やAppleのLLMなど、生成AI最新論文の概要5つを紹介します。

Animate Anyoneのオープンソース再現実装版が登場、GPT-4の次に性能が高い商用利用可能な新AIモデル「Mixtral 8x7B」など重要論文を解説(生成AIウィークリー) 画像
テクノロジー

Animate Anyoneのオープンソース再現実装版が登場、GPT-4の次に性能が高い商用利用可能な新AIモデル「Mixtral 8x7B」など重要論文を解説(生成AIウィークリー)

今回は生成AI論文解説に加え、2つの興味深い実装も紹介しています。

他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説(生成AIウィークリー)

感情を含む細かい表現が可能なAIボイスクローン技術「OpenVoice」など、生成AI最新論文の概要5つをお届けします。

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説(生成AIウィークリー)

「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの生成AI論文を紹介します。

毎秒100枚の画像を高速生成できる「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIA開発「AYG」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

毎秒100枚の画像を高速生成できる「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIA開発「AYG」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本解説する連載。今回は、毎秒100枚という画像高速生成できると話題を呼んだ「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIAの4Dアニメーションツール「AYG」などを紹介しています。

「Suno」と一味違う音楽生成AI登場。音楽から新しい音楽をパート毎に生成「StemGen」、着せ替えAI「Outfit Anyone」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

「Suno」と一味違う音楽生成AI登場。音楽から新しい音楽をパート毎に生成「StemGen」、着せ替えAI「Outfit Anyone」など重要論文5本を解説(生成AIウィークリー)

音楽生成に新たな展開が。Music to Musicによる生成をパートごとに出せる技術が登場しています。生成AIに関する論文5つを紹介します。

写真内の奥行きを推定する「Marigold」、言語に頼らず画像理解する「Large Vision Model」、数分間の高品質ビデオ作成する「Vchitect」など重要論文6本を解説(生成AIウィークリー) 画像
テクノロジー

写真内の奥行きを推定する「Marigold」、言語に頼らず画像理解する「Large Vision Model」、数分間の高品質ビデオ作成する「Vchitect」など重要論文6本を解説(生成AIウィークリー)

今週は重要論文が多くて6本です。画像の深度情報を推定する技術を大幅に進化させた「Marigold」などの生成AIの最新情報をお届けします。