Generative AI

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー)

今週の生成AIウィークリーは、AIの“パラメータ”を生成するAI「P-diff」、過去最高精度のリアルタイム物体検出器「YOLOv9」など重要論文5本を解説します。

GoogleのGemini AI、多様性に配慮して「黒人ナチスドイツ兵士」や「米国建国を率いた黒人政治家」画像を生成してしまう。改善に取り組むと声明 画像
テクノロジー

GoogleのGemini AI、多様性に配慮して「黒人ナチスドイツ兵士」や「米国建国を率いた黒人政治家」画像を生成してしまう。改善に取り組むと声明

Googleの生成AIであるGeminiが、多様性に配慮するあまり「1943年のドイツ軍兵士の画像を作って」に対してナチスドイツ風軍装の黒人男性やアジア人女性の画像を生成してしまい、Googleは歴史的に不正確だったと認める声明を発表するできごとがありました。

さよなら吟遊詩人。Bardから双子のGeminiにバトンタッチしたGoogleのAIはどう変わったのか(Google Tales) 画像
テクノロジー

さよなら吟遊詩人。Bardから双子のGeminiにバトンタッチしたGoogleのAIはどう変わったのか(Google Tales)

GoogleのAIはBardからGeminiに変わりました。名前以外にどこが変わったのかをまとめてみました。

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー)

1週間分の生成AI関連論文の中から重要なものをピックアップする連載。今回は、Gemini 1.5、LoRA改良版、WindowsのAIエージェント、長時間動画にも対応するマルチモーダルAIなど5本を紹介します。

AI生成の巨大ペニスを生やしたネズミ画像、査読付き科学誌の論文に載ってしまい科学界困惑。学術的にもデタラメ 画像
テクノロジー

AI生成の巨大ペニスを生やしたネズミ画像、査読付き科学誌の論文に載ってしまい科学界困惑。学術的にもデタラメ

査読付きのオープンアクセス科学論文誌Frontiersは、掲載した論文に、意味不明な巨大なペニスを持つラットの挿絵を添付して掲載していたことで、科学者コミュニティをザワつかせています。

OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか 画像
テクノロジー

OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか

OpenAIから新しい動画生成モデル「Sora」が発表され、合わせて技術レポートも公開されました。Soraはテキストから最長1分の動画を生成できるモデルで、画像から動画の生成や動画の補完も可能。作例を見る限り、現在公開されているどの動画生成モデルよりも優れています。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第18回:バレンタイン編。ComfyUIの環境を整える (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第18回:バレンタイン編。ComfyUIの環境を整える (西川和久)

グラビアカメラマンでありソフトウェアエンジニアでもある西川和久氏による生成AI
グラビア実践講座 第18回をお届けします

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー)

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」などを解説します。

生成AIで大統領候補のフェイク画像作成、Midjourneyが禁止検討。トランプおよびバイデン両氏を含む 画像
テクノロジー

生成AIで大統領候補のフェイク画像作成、Midjourneyが禁止検討。トランプおよびバイデン両氏を含む

Midjourneyは今後1年間、同社の人工知能ソフトウェアを使って政治的な画像を作成すること、特にジョー・バイデン氏とドナルド・トランプ氏の画像生成を禁止することを検討しています。

アップル、文章で画像を編集するAIモデル「MGIE」開発。GitHubにオープンソース公開 画像
テクノロジー

アップル、文章で画像を編集するAIモデル「MGIE」開発。GitHubにオープンソース公開

アップルの研究者らが、入力した文章によって画像を編集できるAIモデル「MGIE」を発表、公開しました。MGIEとはMLLM-Guided Image Editingの略で、テキストベースのコマンドを解釈するマルチモーダル大規模言語モデル(MLLM)を使用しています。

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー)

iPhone 15 Proで0.2秒以内に高品質な512×512画像を生成することにGoogleが成功。生成AIに関する最新論文5本を解説します。

生成AIおじさんをおじさん好きが作るとどうなる?(第1回) ありふれたモチーフ「おじさん」を生成するための手法 画像
テクノロジー

生成AIおじさんをおじさん好きが作るとどうなる?(第1回) ありふれたモチーフ「おじさん」を生成するための手法

生成AIによりおじさんの画像を作り出すためのツールや生成のコツのようなものをご紹介します。

Googleの会話AI『Bard』、賢いGemini Proが日本語でも利用可能に。回答のダブルチェックも対応 画像
テクノロジー

Googleの会話AI『Bard』、賢いGemini Proが日本語でも利用可能に。回答のダブルチェックも対応

GoogleのチャットAIサービスBardで、日本語でもGemini Proを利用可能になりました。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第17回:新技術をすぐ試せるComfyUIのインストール・使いかた (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第17回:新技術をすぐ試せるComfyUIのインストール・使いかた (西川和久)

Stable Diffusionで生成AI画像を作る時、もっとも一般的なインターフェースはAUTOMATIC1111だろう。デファクトスタンダードと言ってもいいほどで、検索すると、インストール方法や使い方など、それこそ山盛り出てくる。ところが最近、ComfyUIがちょっとした人気だ。