
元Stable Diffusion開発チームによる高性能画像生成AI「FLUX.1」、Perplexity精度のオープンソース検索AI「MindSearch」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第58回)では、先日OpenAIが発表した「SearchGPT」など、Webのタイムリーな情報と大規模言語モデルを組みわせた検索AIのオープンソースモデル「MindSearch」や、Stability AIが発表した、単一の入力画像から3Dメッシュを0.5秒で生成する「Stable Fast 3D」を取り上げます。

AIが量産するデータで何度も学習するAIは「モデル崩壊」する研究結果、SD級の大型画像生成AIを「約29万円」「2.6日」の高コスパで訓練できるSonyAI開発「MicroDiT」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第57回)では、生成AIが生成したコンテンツを生成AIが学習し続けると性能低下が見られ、モデル崩壊が起きるという研究報告を取り上げます。また、Sony AIが大型の画像生成AI(11.6億パラメータ)の訓練を8台のNVIDIA H100 GPUを使用してわずか2.6日で完了し、しかもそれが約29万円という高いコストパフォーマンスを達成した手法「MicroDiT」をご紹介します。

AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第56回)では、AIとユーザーの対話内容を長期記録し、LLMの応答をそのユーザーにパーソナライズしていくメモリ機能「Mem0」や、音声の理解に優れている大規模言語モデル「Qwen2-Audio」などを取り上げます。

漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。

他人の顔でYouTuber? 写真内の顔を思うように動かして話をさせるAI「LivePortrait」を動画生成AI「KLING」開発元が発表など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第54回)では、KLINGを開発した快手が、画像内のキャラクターの顔を自在に動かす技術「LivePortrait」を発表しました。

AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。

プロ作成モデルに匹敵する写真1枚→3Dモデル生成「Unique3D」、アーティストが丁寧に作ったようなポリゴンメッシュ生成「MeshAnything」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術をピックアップして解説する、生成AIウィークリー(第52回)では、オープンソースで成長する動画生成AI「Open-Sora」の新バージョンや、精度の伸び代が見込まれるAIによる3Dメッシュ生成分野から「Unique3D」と「MeshAnything」を取り上げます。

画像内キャラに楽曲を歌わせる「Hallo」、“行列の掛け算なし”にLLMの開発が可能な「MatMul-Free LM」など重要論文5本を解説(生成AIウィークリー)
第51回の生成AIウィークリーでは、この1週間の興味深い生成AIに関する研究論文をピックアップし、解説します。特に注目したいのは、大規模言語モデル(LLM)の開発において、常識とされている行列乗算を排除するという「MatMul-Free LM」です。この研究は、GitHubにおいて2000件(執筆現在)のStarを獲得しており、注目されています。

中国AIが加速。Soraに匹敵する中国の動画生成AI「KLING」、中国アリババの最新オープンLLM「Qwen 2」登場など生成AI関連技術5つを紹介(生成AIウィークリー)
週次で生成AI関連技術5つを紹介する連載。中国のショート動画アプリ開発チーム「快手」が手がけるSoraに匹敵する動画生成AI「KLING」など。

動画AIが豊作。アニメ絵2枚の間の“中割り”を生成し映像化するAI「ToonCrafter」、画像内キャラを滑らかに踊らせるAI「MusePose」など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5本を解説する連載。今週は、アニメの“中割り”を生成してアニメーションに仕上げる「ToonCrafter」、1枚の画像とモーションデータからダンス動画を生成するAIモデル「MusePose」など。

“株”選びにGPT-4の利益予測は使えるのか? “文学作品”を翻訳する複数AIが働く出版社「TransAgents」など重要論文5本を解説(生成AIウィークリー)
生成AIに関する重要論文を解説する連載。今回は、“文学作品”を翻訳する実際の出版社を真似たAI会社「TransAgents」、GPT-4で企業の財務諸表を分析し将来の利益を予測……など5本。

Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。今回は、GPU上でネイティブ動作する並列処理が可能な新プログラミング言語「Bend」とランタイムシステム「HVM2」、大規模言語モデルは追加学習や新知識で幻覚生成が増加。Googleなどが調査などを紹介。

Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5本を解説する連載。Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など。

AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー)
最新の生成AI重要論文を紹介する連載。今回は、AIの新星ニューラルネットワーク「KAN」、LLMが“カンニング”して評価を盛っていた問題など5本。

自分の声のまま多言語な声に変換できる商用利用可能な音声クローンAI「OpenVoice V2」、AppleとMicrosoftがスマホ上でも動く生成AIを発表など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5本を解説する連載。今回は、自分の声のまま多言語な声に変換できる商用利用可能な音声クローンAI「OpenVoice V2」、AppleとMicrosoftがスマホ上でも動く生成AIなど。

AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説(生成AIウィークリー)
オープンソースLLMで大きな動き。MetaがLlama 3を発表したのと同時期に、AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」を公開。重要論文5本を解説します。

iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー)
今週の生成AI重要論文は、AIが生成した“誤ったコード”を自律修正するAI「AutoCodeRover」、iPhoneのUIを理解するAppleの言語モデル「Ferret-UI」など。

GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5本を解説する連載。今回は、GPT-4越えで直接スマホ上で処理できるオンデバイス生成AI「Octopus v2」などを取り上げます。

生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー)
生成AIに関する重要論文5本を解説する連載。今週は、生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など。

動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)
先週発表された生成AI分野で重要な論文の中から5本を解説します。動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など。

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
Appleは、高性能なMLLMを探るべく、モデルの構造や学習に使うデータの選び方がモデルの性能にどのように影響するかなどを詳しく分析した論文を公開しました。

4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
民生用GPUはNVIDIA RTX 4090の24GBメモリが最大ですが、これでLLMのファインチューニングは困難とされています。それを可能にするという技術が発表されました。

複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)
今週も、生成AIの重要論文5本を解説します。透明含む複数レイヤーを同時に画像生成できるAI「LayerDiffuse」、音楽を文字のように扱う音楽生成AI「ChatMusician」など。

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー)
今週の生成AIウィークリーは、AIの“パラメータ”を生成するAI「P-diff」、過去最高精度のリアルタイム物体検出器「YOLOv9」など重要論文5本を解説します。

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップする連載。今回は、Gemini 1.5、LoRA改良版、WindowsのAIエージェント、長時間動画にも対応するマルチモーダルAIなど5本を紹介します。

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー)
複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」などを解説します。

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー)
iPhone 15 Proで0.2秒以内に高品質な512×512画像を生成することにGoogleが成功。生成AIに関する最新論文5本を解説します。

Amazonが服の仮想試着AI「Diffuse to Choose」、画像内の物体分離指示できる「Grounded SAM」、動画の高品質な奥行き推定「Depth Anything」など重要論文6本を解説(生成AIウィークリー)
今回の生成AI論文解説はいつもより1本多い、6本分です。中でもAmazonのバーチャル試着技術は実用性が高そうです。

GPT-4のコード生成精度を2倍以上向上させる「AlphaCodium」、写真1枚から本人性を維持した画像を量産できる「InstantID」など重要論文5本を解説(生成AIウィークリー)
PhotoMakerのライバルともいうべき技術やAppleのLLMなど、生成AI最新論文の概要5つを紹介します。

Animate Anyoneのオープンソース再現実装版が登場、GPT-4の次に性能が高い商用利用可能な新AIモデル「Mixtral 8x7B」など重要論文を解説(生成AIウィークリー)
今回は生成AI論文解説に加え、2つの興味深い実装も紹介しています。

他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説(生成AIウィークリー)
感情を含む細かい表現が可能なAIボイスクローン技術「OpenVoice」など、生成AI最新論文の概要5つをお届けします。

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説(生成AIウィークリー)
「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの生成AI論文を紹介します。

毎秒100枚の画像を高速生成できる「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIA開発「AYG」など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5本解説する連載。今回は、毎秒100枚という画像高速生成できると話題を呼んだ「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIAの4Dアニメーションツール「AYG」などを紹介しています。

「Suno」と一味違う音楽生成AI登場。音楽から新しい音楽をパート毎に生成「StemGen」、着せ替えAI「Outfit Anyone」など重要論文5本を解説(生成AIウィークリー)
音楽生成に新たな展開が。Music to Musicによる生成をパートごとに出せる技術が登場しています。生成AIに関する論文5つを紹介します。

写真内の奥行きを推定する「Marigold」、言語に頼らず画像理解する「Large Vision Model」、数分間の高品質ビデオ作成する「Vchitect」など重要論文6本を解説(生成AIウィークリー)
今週は重要論文が多くて6本です。画像の深度情報を推定する技術を大幅に進化させた「Marigold」などの生成AIの最新情報をお届けします。

画像内のキャラを思うがままに抜群の精度で動かせる「Animate Anyone」、話した声をすぐに翻訳するMeta「Seamless」など重要論文5本を解説(生成AIウィークリー)
先週大きな話題となった、画像内のキャラクターや写真内の人物を骨格動画に応じて動かせる「Animate Anyone」など5本の生成AI論文を紹介。

AIが間違えやすい「指の数」を修正する技術、Stability AIの動画生成AI「Stable Video Diffusion」など重要論文5本を解説(生成AIウィークリー)
発表以来大きな話題となっている、Stability AIの動画生成AIモデルなど、5本の生成AI論文を解説。

入力テキストを実写アバターに話させるツールをMicrosoftが発表、擬人化キャラの外見や性格を文章で作り出す「ChatAnything」など重要論文5本を解説(生成AIウィークリー)
生成AIの最新トレンドを追いかける連載。今回は入力テキストを実写アバターに話させるツール、擬人化キャラの外見や性格を文章で作り出す技術など重要論文5本を解説します。

SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説(生成AIウィークリー)
今回の生成AI論文紹介では、画像の生成、理解、対話といった分野での進歩がありました。

文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー)
その週の重要論文5本を解説する連載。今回は、OpenAIの文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで自分の声を別人の声に即時変換するモデル「LLVC」など。

画像内キャラを3D変換する強力モデル「Zero123++」、文章から高品質3Dモデル生成するAI「DreamCraft3D」など重要論文5本を解説(生成AIウィークリー)
今回は3Dモデルで大きな躍進がありました。画像1枚から3Dモデルを高品質に生成する拡散モデル「Zero123++」をはじめとする、生成AI最新論文の概要5つをお届けします。

ベートーヴェンやクレオパトラなど、偉人になりきるAI「Character-LLM」、“グリグリ動かせる3Dシーン”をリアルタイム生成する「4D Gaussian Splatting」など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5つを紹介する連載。今回はWeb上のサービスを言語指示でフル活用できるChrome拡張機能を用いたAI「OpenAgents」、偉人を完コピするAI「Character-LLM」など。