2月26日、米Amazonは音声AIアシスタントのAlexaを生成AIで大幅に強化した「Alexa+」を発表しました。Prime会員は無料で使用できます。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第84回)では、リアルタイムの音声対話を実現するオープンソースAIモデル「Step-Audio」、実世界の報酬基準でフリーランスのAIエンジニアリング能力を評価するOpenAI開発ベンチマーク「SWE-Lancer」を取り上げます。
中国のロボット開発ベンチャー企業Zhongqing Robotics(EngineAI)は、同社製ヒューマノイド「PM01」が前方宙返りを成功させる様子を収めた動画を公開しました。
AIハッカソンが日本5箇所を巡業開催する。
英国で、総勢1000人の音楽アーティストが集い「無音のアルバム」を制作、公開しました。
ゼロからゲノムを生成できる、9.3兆個塩基対のDNA配列データを学習した40Bパラメータを持つ大規模言語モデル(LLM)を提案した論文「Genome modeling and design across all domains of life with Evo 2」に注目します。
イーロン・マスク、何を考えてるんだ……。倫理観が最も薄いのではないかと評判のLLM(大規模言語モデル)「Grok 3」ですが、セクシー&ロマンティックなコンテンツをリリースしてしまいました。Voice Conversation Mode(音声会話モード)です。
ポーランドのロボット開発ベンチャーClone Roboticsは、世界初をうたう二足歩行筋骨格アンドロイド「Protoclone V1」の動画を公開しました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第83回)では、大規模言語モデル(LLM)を画像操作できるAIエージェントに変換する「OmniParser V2」や、ByteDanceの画像や動画を生成する新しいAI「Goku」を取り上げます。
Topaz Video AIの新機能「Project Starlight」は、古いビデオを高品質に修復する優れたDiffusionモデルを採用。ユーザーは無料で試せ、ディテールが鮮明に再現される。
それにしても、ほぼ毎日AI関連のニュースが届きますね。私は普段、海外(主に米国)のIT系ニュースの速報をお届けする仕事をしているんですが、最近ではAI関連の速報を書かない日はほとんどありません。
Suno、Udio、Riffusion、そして最近ではYuEというオープンソースソフトも登場してきたAI作曲ソフトですが、完成形を作るのには向いていても、部分的な修正は苦手です。その状況がいい方に変わってきました。
睡眠や運動、心拍など各種バイタルデータを24時間計測するスマートリング、RingConn (第2世代モデル)が国内向けクラウドファンディングを開始しました。
Google Whisk
人気連載「生成AIグラビアをグラビアカメラマンが作るとどうなる?」の著者である西川和久さんを講師に迎えた、生成AIグラビアワークショップの第3期第4回を2月19日に開催いたします。
コーディングで良好な成果を示しているOpenAIの「o3」が国際情報オリンピック(IOI)で金メダルを達成した研究報告「Competitive Programming with Large Reasoning Models」に注目します。
統合型チャットAIサービスであるPerplexityが新サービスをリリースしました。「Deep Research」オプションの追加です。
超光速。FTL(Faster Than Light)とも呼ばれることがある、SFファンならおなじみの移動手段です。それに近い技術をどこかが開発したとか実現不可能だと分かったとか、断片的な報道がたまにされています。
ハリウッドスターのスカーレット・ヨハンソンは、自身の肖像を無断で使用し、カニエ・ウェストに反対するAI生成動画が拡散されていることに関し、AIの誤った使い方を制限するよう米国政府に要請しました。
アドビが2月13日、AI動画生成サービス「Firefly Video Model」を一般公開しました。1920×1080の解像度で5秒間の生成が可能。テキストプロンプトだけでなく、Start FrameとEnd FrameをサポートしたImage to Videoも使えます。
アドビが生成AIアプリ Adobe Firefly の新機能と新料金プランを発表しました。
Adobe が Acrobat の生成AI機能「Acrobat AIアシスタント」日本語版の提供を開始しました。
オライリーメディアの創立者ティム・オライリー氏が、同社のブログに「The End of Programming as We Know It」(私たちが知っているプログラミングの終焉)という記事を公開しました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第82回)では、AIが生成する映像内の不自然な動き(動作中に余分な手足が出現したり・物が体をすり抜けたりなど)を回避する動画生成AI「VideoJAM」や、歌唱を入力に人物画を歌わせることができる動画生成AI「OmniHuman-1」を取り上げます。
ChatGPTの応答が昨日あたりからちょっとおかしいことに気づきました。馴れ馴れしすぎるのです。
国際数学オリンピックで金メダル相当のパフォーマンスを達成したモデルを提示する論文「Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2」に注目します。
楽天モバイルは、法人向けのAIサービス「Rakuten AI for Business」を1月29日に発表しました。
香港科技大学などが開発したオープンソースのAI作曲ソフト「YuE」が発表されて数日経ちました。筆者はWindowsでのインストールができずにWSL2のLinux環境で実行できるようになりましたが、いまだに一定のスキルは必要なようです。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第81回)では、DeepSeekの画像生成AI「Janus-Pro」と、Sakana AIによるLLMの知識を小規模モデルに転移させる蒸留法「TAID」を取り上げます。
OpenAIがChatGPTの新機能としてdeep researchを投入しました。筆者が常日頃考えているテーマを深掘り検索してもらいました。同様の機能はGoogle Geminiもあるのでそちらにも同じ質問を投げました。
先週の土曜日早朝、AI研究家の清水亮さんが興奮して「o3-miniすごい」「自分だけではそのポテンシャルを実感できないからハッカソンやろう」と言ってるのに居合わせ、自分もそのハッカソンに出ることになりました。
今回は、OpenAIが1月31日(現地時間)に発表した「o3-mini」を取り上げます。
サンフランシスコベースのスタートアップ がAI作曲サービス「Riffusion」のパブリックベータを公開しました。
Sunnoの新しい歌詞エディタの出来がすごく良いので紹介します。
ImageFXなど外部サービスの生成AI画像の出来は!?
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第80回)では、1枚の画像やテキストから高解像度のテクスチャ付き3Dアセットを生成するAIモデル「Hunyuan3D 2.0」や、ByteDanceのブラウザを自動操作するAIエージェント「UI-TARS」を取り上げます。
OpenAIは、中国DeepSeekが同社のAIモデルを強化するために、OpenAIのデータを「抽出(Distrill)」した証拠を掴んだと主張しています。
中国開発のオープンソース謳うAI作曲ソフト「YuE」。まだ謎が多いですが、自宅のPCにインストールして楽曲を生成できたので、そのAI作曲体験をまとめました。
オープンソース版でSuno並に品質が高くて歌もうたえるAI作曲ソフト「Yue」をMultimodal Art Projectionと香港科技大学(HKUST)が共同開発しました。
トランプ大統領就任式ではGoogleのピチャイCEOや創業者のサーゲイ・ブリンさんの顔も見えましたが、今のところはGoogleがトランプ政権に協力する具体的な発表はないようです。
CES 2025におけるNVIDIAブースは、「GeForce RTX 50シリーズを発表したばかり」ということもあり、会場は、なかなかの盛況ぶりであったように思う。
今回は、日本語でリアルタイムに音声対話してくれるAIモデル「J-Moshi」に注目します。名古屋大学の研究者らが開発したこのAIモデルは、ユーザーの声を聞いて内容に応じた発話を同時に行います。