この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第68回)では、テキストを読み上げるTTSシステム「F5-TTS」や、会話AIモデル「Ichigo」を取り上げます。また、単一CPUでLLMで実行できる、Microsoftの1ビットLLM推論フレームワーク「bitnet.cpp 1.0」などをご紹介します。
ARグラスのXREAL が、本体色レッドのみ30%オフの台数限定セール「スペシャルレッドセール」を開始しました。
筆者は先日、今年二度目の台湾旅行をしてきました。前回は、自分の作品が台北当代芸術館(MOCA Taipei)の「Hello, Human!」に展示されるというのでその様子を見に行ったのですが、今回は台湾南部の大都市、高雄市で行われているTTXC(台湾技術文化展示会)に参加するためです。具体的には、TTXCの目玉展示の一つである、対戦型AIアーケードゲーム「VS AI街頭對戰」の世界大会決勝の審査員を務めるというのが目的でした。
主要音楽レーベルがAI作曲サービスのSunoとUdioを提訴したのが6月24日。それから4カ月が過ぎたタイミングで、Sunoがクリエイティブな方向からの反撃を仕掛けました。超大物プロデューサーが活用しているという事例です。
今年のノーベル化学賞を受賞した2人が開発に貢献したタンパク質構造AI予測ツール「AlphaFold」シリーズによって、精子と卵子の結合メカニズムを明らかにした論文「A conserved fertilization complex bridges sperm and egg in vertebrates」に注目します。
PCパーツショップのドスパラの運営元であるサードウェーブが主催する「24時間AIハッカソン Powered by GALLERIA」。9月に東京大会が開催され、5月の大阪、7月の福岡と3大会の優勝チームが決まりました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第67回)では、商用利用可能なマルチモーダル大規模言語モデル「ARIA」と動画生成AI「Pyramid Flow」などを取り上げます。
Suno AIの公式iOSアプリに新機能「Scenes」が追加されました。Sunoのモバイルアプリは米国App Storeでしか公開されていませんが、米国App Store専用にしているiPhoneを使い、試してみました。
今年も、Adobeの年次イベント「Adobe MAX 2024」の取材に来ている。例年は米ロサンゼルス開催だったが、今年は米国東側のマイアミビーチでの開催である。
筆者はUTAUによる波形接続の時代から「その人の声になりきる」技術を試してきましたが、このほど、その中でも画期的と思える技術に出会いました。『Seed-VC』(Seed Voice Conversion)というオープンソースソフトです。
10月2日FLUX 1.1 [pro]発表!でも使用はAPIのみ
Adobe MAX 2024が始まりました。Sneak Previewについては西田宗千佳さんに速報を執筆いただいているところなのですが、生成AI機能が使えるようになった動画エディターのPremier Proのベータ版がすでに公開されていて試すことができたので、ファーストインプレッションを。
Adobe MAXイベントにあわせて、アドビが動画生成AIモデル『Adobe Firefly Video Model』のベータ提供開始を発表しました。
AIがRNAの未知なる領域を解析し、7万以上の新種ウイルスを発見した論文「Using artificial intelligence to document the hidden RNA virosphere」について。
中国製の動画生成AIサービス「Hailuo」の紹介をし、その中でサブスクリプションサービスが待たれる、と書いていましたが、意外なほど早くきました。本日(10月11日)スタートです。
テスラは日本時間10月11日に開催されたイベント「We, Robot」で2人乗りの自動運転ロボットカー「サイバーキャブ(Cybercab)」と、最大20人が乗れるという「ロボバン(Robovan)」を発表しました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、日本語専用LLMベンチマーク「JMMMU」や、Appleの画像深度推定モデル「Depth Pro」を取り上げます。また、Metaが開発した動画生成AI「MovieGen」や、テキストや画像1枚から3Dコンテンツを生成する「Flex3D」をご紹介します。
これはすごいと話題になっていたYouTube動画。これに対抗しようとやってみました。
任天堂が目覚まし時計『ニンテンドーサウンドクロック Alarmo』(アラーモ)を発売しました。
Image to Video、つまり静止画を短い動画にできる動画生成AIの新サービスが登場しました。中国の「Hailuo」(ハイルオ)がそれで、中国製動画生成AIとしては、KLING、Viduに次ぐ3番手となります。
マイクロソフトが看板ゲームシリーズのひとつ Halo を制作する新組織 Halo Studious の設立と、複数の新作を開発中であることを発表しました。
AIアート作品コンテスト「第三回AIアートグランプリ」の予選通過作品が決定しました。
テクノエッジ編集部では、「TechnoEdge-Side」(テクノエッジ・サイド)を2週に1回のペースでお届けしています。
今回は、スマートグラスに映る他人の顔から名前や住所などの個人情報を特定する技術を説明したドキュメント「I-XRAY: The AI Glasses That Reveal Anyone’s Personal Details—Home Address, Name, Phone Number, and More—Just from Looking at Them」に注目します。
FLUX.1登場から約2ヶ月経った現状
AIリップシンクサービスのHedraが新バージョン「Character-2」を公開したので使ってみました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。
PCパーツショップのドスパラの運営元であるサードウェーブが主催する「24時間AIハッカソン Powered by GALLERIA」は9月14日から15日、「東京24時間AIハッカソン 2024」を開催しました。
今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。
今回は、過去作った記事などのヘッダー画像+αから松尾氏に動画を作っていただくという、コラボ企画。元画像はSD 1.5、SDXL、SD3 Medium、そしてFLUX.1 [dev] が入り乱れての動画となる。
オンライン販売の実態を消費者に正確に伝え、権利を守る取り組みが進んでいます。
『オートフォーカスアイウェア』のViXion株式会社が、新モデル ViXion01Sのクラウンドファンディングを開始しました。
この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第65回)では、対話スピードや会話中の割り込みの自然さなど、人間と話しているかのような会話ができるモデル「Moshi」や、ByteDanceが開発した音楽生成・編集モデル「Seed-Music」を取り上げます。
OpenAIがようやくAdvanced Voice Modeのロールアウトを始めました。
X / 旧Twitter のイーロン・マスク氏が、ブロック機能の仕様変更を告知しました。
静岡大学情報学部の宮崎真研究室は9月22日、ヤマハ発動機、慶應義塾大学との共同研究により、1時間の休憩を挟んで再度シミュレータを体験することで、シミュレータ酔いを低減できることを発見した、と発表した。
「私はロボットではありません」でお馴染みのGoogleが開発する「CAPTCHA」を突破するAIシステムを提案した論文「Breaking reCAPTCHAv2」を取り上げます。
スポーツカーメーカーのロータス・カーズは、そのデザインルーツに立ち返りつつ、未来的な技術を盛り込んだ電気スポーツカーコンセプト「Theory 1(セオリー1)」を発表しました。
元Appleで数多くの製品デザインを手掛けたジョニー・アイブが、OpenAIのサム・アルトマンと「AIデバイス」製品を開発していることを認めました。
話題のオープンソース動画生成AI「CogVideo」をローカルマシンに超簡単インストールできたのです。
プレイステーションブースではPS 5 Proの一般公開も実施。『FINAL FANTASY VII REBIRTH』『グランツーリスモ7』どちらかのタイトルを体験できます。
この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第64回)では、オープンソースな音声AI技術を2つ、AIと音声対話できる「LLaMA-Omni」と、テキストを読み上げる「Fish Speech V1.4」を取り上げます。