画像内キャラに楽曲を歌わせる「Hallo」、“行列の掛け算なし”にLLMの開発が可能な「MatMul-Free LM」など重要論文5本を解説(生成AIウィークリー)
第51回の生成AIウィークリーでは、この1週間の興味深い生成AIに関する研究論文をピックアップし、解説します。特に注目したいのは、大規模言語モデル(LLM)の開発において、常識とされている行列乗算を排除するという「MatMul-Free LM」です。この研究は、GitHubにおいて2000件(執筆現在)のStarを獲得しており、注目されています。
もうSoraは不要なのか。動画生成AIの新基準、Luma AI「Dream Machine」をサブスクしてわかった「ハリー・ポッターに出てくるような魔法」の使いこなし術(CloseBox)
テキストプロンプトからリアルな動きのある映像を生成できる動画生成AISora、KLINGが使えずにヤキモキしていた人々が大挙して押し寄せた「Luma Dream Machine」。このサービスの有償プランに申し込んで使ってみたので、その使い方のコツをお伝えします。
今そこにあるSora、現時点最高クラスの誰でも使える動画生成AI「Luma Dream Machine」が人気すぎて数時間の待ち行列(CloseBox)
今使えるSoraのライバルが登場しました。
短い演奏・歌を十数秒で4分の完成曲に。作曲AIが未完成曲をフィニッシュするSunoの新機能を試して見つけた黄金パターン(CloseBox)
オーディオをアップロードして、そこから曲を拡張していく機能がようやくSunoでも使えるようになりました。
Apple Intelligenceはどのように開発されたのか? 中核をなすオンデバイスAIモデルとPrivate Cloud Computeについて今わかっていること(CloseBox)
アップルが打ち出したAIフレームワーク「Apple Intelligence」ですが、個々の機能についてはわかるものの、全体像がつかみにくいものになっています。
手のひら投影AIデバイス「Humane Ai Pin」はGTP-4oとGemini両刀使い。アップデートされた使い勝手をチェックした
サンフランシスコのスタートアップHumaneが開発した手のひら投影型AIデバイス「Ai Pin」に注目が集まっています。
中国AIが加速。Soraに匹敵する中国の動画生成AI「KLING」、中国アリババの最新オープンLLM「Qwen 2」登場など生成AI関連技術5つを紹介(生成AIウィークリー)
週次で生成AI関連技術5つを紹介する連載。中国のショート動画アプリ開発チーム「快手」が手がけるSoraに匹敵する動画生成AI「KLING」など。
AI作曲サービスのUdio、アップロードした音楽を前後に拡張できる新機能「Audio uploads」でSunoを出し抜く(CloseBox)
AI作曲サービスのUdioが、有償サブスクライバー向けに新機能「Audio uploads」を発表しました。ユーザーがオーディオクリップをアップロードし、それをプロンプトを使って前後に継ぎ足すことができるというものです。
動画AIが豊作。アニメ絵2枚の間の“中割り”を生成し映像化するAI「ToonCrafter」、画像内キャラを滑らかに踊らせるAI「MusePose」など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5本を解説する連載。今週は、アニメの“中割り”を生成してアニメーションに仕上げる「ToonCrafter」、1枚の画像とモーションデータからダンス動画を生成するAIモデル「MusePose」など。
AI作曲サービスは「長さ」の戦いに。Udioが2分10秒の生成に対応、Sunoは全ユーザーに4分生成を開放(CloseBox)
AI作曲の覇権を競うSunoとUdioが相次いで機能強化を発表しました。
iOS 18ではAIがテキストメッセージからカスタム絵文字をその場で生成、Siriとのより自然な対話が実現する可能性あり?
アップルは6月10日~(現地時間)の年次開発者会議WWDCにて次期iOS 18を正式発表し、生成AI機能にかなりの比重を置くと予想されています。新規のチャットボット以上に、お馴染みの標準アプリをAIにより強化し、実用性を重視しているという具合です。
マイクロソフトのCopilot+ PC戦略とは? ポッドキャスト第56回を本日(5月27日)正午にライブ配信(TechnoEdge-Side)
テクノエッジ編集部では、「TechnoEdge-Side」(テクノエッジ・サイド)を週1回のペースでお届けしています。その第56回放送を、本日(5月27日)正午(12時)に、YouTubeで行います。
“株”選びにGPT-4の利益予測は使えるのか? “文学作品”を翻訳する複数AIが働く出版社「TransAgents」など重要論文5本を解説(生成AIウィークリー)
生成AIに関する重要論文を解説する連載。今回は、“文学作品”を翻訳する実際の出版社を真似たAI会社「TransAgents」、GPT-4で企業の財務諸表を分析し将来の利益を予測……など5本。
AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox)
このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。
GPT-4o vs. Project Astra。マルチモーダルLLM戦争を語るポッドキャスト第55回を配信(TechnoEdge-Side)
テクノエッジ編集部では、人気のテック系ポッドキャスト「backspace.fm」の中に「TechnoEdge-Side」(テクノエッジ・サイド)というチャンネルを設け、週1回のペースでお届けしています。
マインクラフトをGPT-4oと一緒にプレイ、マイクロソフトがCopilotのAI新機能をデモ。近日中に提供
Minecraftをプレイするときに、AIアシスタント「Copilot」と会話できる機能をMicrosoftが発表しました。21日にSNSで公開された映像では、プレイヤーがCopilotにアイテム制作のアドバイスを求めたり、Copilotが脅威への対処法を知らせる様子が映されています。
バッジ型AIデバイスAi PinのHumane社、早くも身売り検討中?発売から約1か月(Bloomberg報道)
Humaneは2023年11月、同社の最初で唯一の製品であるAI Pinを発表、2024年4月に出荷を開始し始めたばかりでしたが、新しい報道によると現在、会社の売却を検討しているとのことです。
中国で『AI習近平』誕生。「習近平思想」記した著書十数冊や公式文書で強化
中国国家サイバースペース管理局(CAC)は、習近平国家主席の思想と政治哲学に関する著書などでトレーニングされた大規模言語モデル(LLM)を搭載するAIシステムを開発しました。
生成AIグラビアをグラビアカメラマンが作るとどうなる?第25回:三拍子揃った新Upscale手法 ControlNet 852_a_clone_xlを試す (西川和久)
現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第25回は、画像生成と切っても切り離せないアップスケールの新技術編。
スカヨハ、ChatGPTの声提供をサム・アルトマンから繰り返し提案され断っていたと明かす。そっくりの『Sky』には衝撃と怒りを声明
ハリウッドスターのスカーレット・ヨハンソンは、声の使用を断ったにもかかわらずOpenAIが「不気味なほど自分に似た」AI音声を発表したことに「ショックを受け、怒り」を覚えたと述べ、同社のサム・アルトマンCEOに対し「信じられない」とする声明を出しました。
クアルコム、Snapdragon X Elite搭載のMac mini風ミニデスクトップPCを発表。ARM版Windowsアプリ開発向け
クアルコムは、マイクロソフトが発表した新しいSurfaceシリーズにも採用されているSnapdragon X Elite搭載のWindowsミニデスクトップPCを発表しました。価格は899ドル(約14万円)で、6月18日発売予定です。
Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。今回は、GPU上でネイティブ動作する並列処理が可能な新プログラミング言語「Bend」とランタイムシステム「HVM2」、大規模言語モデルは追加学習や新知識で幻覚生成が増加。Googleなどが調査などを紹介。
Gemini Advancedで次世代AIモデルGemini 1.5 Pro解禁。音声会話Gemini Liveやカスタム版Gemsなど新機能
Googleは5月14日~15日(現地時間)、年次開発者会会議Google I/Oを開催しました。直前にPixel 8aが発表されていたこともあり、AI一色だったGoogle I/Oですが、一般ユーザーが身近に感じられそうなのがGemini Advancedのアップデートでしょう。
技術書典16に出展『グラビアカメラマンが教える 生成AIグラビア実践ハンドブック』を制作しました
テクノエッジは、5月25日から6月9日にかけてオンラインおよびオフラインで開催されるイベント「技術書典16」に出展します。
成功させたいスタートアップの条件とは? エンジェル投資家 川崎裕一さんゲストの第54回を配信(TechnoEdge-Side)
テクノエッジ編集部では、人気のテック系ポッドキャスト「backspace.fm」の中に「TechnoEdge-Side」(テクノエッジ・サイド)というチャンネルを設け、週1回のペースでお届けしています。
Google、AIが通話を聴いてサギか判定・警告する機能をデモ。Gemini Nanoでローカル動作
Googleは年次開発者会議「Google I/O」にて、Androidスマートフォンに掛かってきた電話が詐欺の疑いがある場合、ユーザーに警告する機能をテスト中だと発表しました。
Google、Gemini AIのビデオ検索デモで早速やらかす。カメラのフィルム巻き上げレバーが動かないなら「裏ぶたを開けてフィルムを取り出す」?
日本時間5月15日午前2時より開催されたGoogle I/Oより。Googleは今回のイベントで、Gemini AIをさらに多様なプロダクトに組み込んでいることを大きくアピールしました。
Google、動画生成AIモデル『Veo』発表。高解像度で一分超、撮影用語などプロンプト再現性と高い一貫性、動画の一部編集も
5月15日の Google I/O基調講演で、Googleが新たな動画生成AIモデル『Veo』を発表しました。
Logic Pro 11の新機能を試して理解した、AI作曲と楽器パート別音源分離「Stem Splitter」の相性(CloseBox)
Logic ProのMac版であるバージョン11とiPad版のバージョン2が、5月14日に更新されました。本当に10年待ったぜ、という感じのSession Players、AI作曲時代にぴったりのStem Splitterなど、大きな新機能が入った新版です。
生成AIグラビアをグラビアカメラマンが作るとどうなる?第24回:照明を自由にコントロールできるIC-Light登場!(西川和久)
lllyasviel氏復活第一弾のIC-Light
OpenAI、ChatGPTのMacアプリ公開。Macのカメラやスクショ、写真ライブラリにもアクセスし音声対話可能
OpenAIはChatGPTのGPT-4oを使えるマルチモーダルなMacアプリを公開した。
Appleイベント直前、告知満載の第53回を配信(TechnoEdge-Side)
テクノエッジ編集部では、人気のテック系ポッドキャスト「backspace.fm」の中に「TechnoEdge-Side」(テクノエッジ・サイド)というチャンネルを設け、週1回のペースでお届けしています。
アトラシアン、新AIサービス「Atlassian Rovo」発表。Googleドライブ、GitHub、Slack、Teamsなどを横断してAIが学習、ユーザーを支援
アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援
Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説(生成AIウィークリー)
生成AIの重要論文5本を解説する連載。Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など。
新型 iPad Proを忘れて、純粋にSoCとしてのM4と「その先」について考えてみる(本田雅一)
アップルがニューヨーク、ロンドン、上海で開催した、iPadをメインに据えた久々の発表会。 製品の概要については、既に十分な報道がなされている上、ウェブにも大量の情報が溢れている。近いうちに実機でのテストの機会があるため、ここでは少し製品から離れて、新型iPad Proに搭載されている新しいプロセッサについて話を進めていくことにしたい。
AI作曲のUdio、有料サービス開始。部分修正も可能に(CloseBox)
AI作曲サービスのUdioは5月8日、有料プランを含むサブスクリプションをスタートしました。同時に、生成した楽曲の部分修正を行う「Audio Inpainting」機能を追加しています。
Logic Proが無料の大幅更新、ベース・キーボードもコード進行に合わせて自動演奏。あとはギター弾いて歌うだけ(CloseBox)
アップルは5月7日、音楽制作ソフトLogic Proの機能アップを発表しました。
作曲AIはプログレッシブロックの夢を見るか? Udioが長く一貫性のある曲を作れるようになった理由(CloseBox)
作曲AIサービスのUdioが5月1日、新機能を搭載したとX上で発表しました。長く、一貫性のある曲を作れるようになると謳っています。この新機能を使ってプログレの長い曲を作ってみました。
世界デビューした生成AI架空バンドの曲を人力カバー、AIが語る音楽性を人間が再現。カバーしてくれる人を募集します(AIだけで作った曲を音楽配信する 第2回)
AIが創造したプログレバンド「The Midnight Odyssey」が世界デビューしてから1カ月が過ぎました。バンドは勢力的に活動しているようで、リードギターのエリオット・スミスがリモートでインタビューに応じた映像が飛び込んできました。
Pika、RunwayMLなど動画生成AIサービスを同一プロンプトで比較した結果。OpenAI Soraでも実際は膨大なガチャと後編集
動画生成AIにまつわる最新の話題をお届けしている、この短期連載。今回は、(おそらく)世界中のAI動画クリエイターたちが使ってみたいと考えているOpenAIのSoraによる映像制作が、そんなに簡単なものではないという裏話と、複数の人気動画生成AIに同じプロンプトで動画を生成させて比較してみます。
Google、新AIアシスタント Gemini モバイルアプリを日本でも提供開始。Googleアシスタントを置き換え
Googleは4月30日(現地時間)、Geminiモバイルアプリの提供地域を拡大すると発表しました。日本でもAndroidではGoogle Playストアからダウンロードが可能。iOSの場合は専用アプリはなく、Googleアプリからのアクセスとなります。
Anthropic、生成AI『Claude』の公式 iOSアプリ配信。Teamプランも提供開始
Anthropicは5月1日(現地時間)、生成AI「Claude(クロード)」のiOSアプリをリリースしました。あわせて、新プランとなる「Team」も発表されています。
