山下裕毅(Seamless)の記事一覧

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

GoogleのAI、国際数学オリンピックで「金メダル」を達成。人間には思いつかないエレガントな解法を出力(生成AIクローズアップ) 画像
テクノロジー

GoogleのAI、国際数学オリンピックで「金メダル」を達成。人間には思いつかないエレガントな解法を出力(生成AIクローズアップ)

国際数学オリンピックで金メダル相当のパフォーマンスを達成したモデルを提示する論文「Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2」に注目します。

DeepSeek-R1のサイズ80%削減の1.58ビット量子化版が登場、DeepSeekの新画像生成AI「Janus-Pro」、Suno級オープン音楽生成AI「YuE」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

DeepSeek-R1のサイズ80%削減の1.58ビット量子化版が登場、DeepSeekの新画像生成AI「Janus-Pro」、Suno級オープン音楽生成AI「YuE」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第81回)では、DeepSeekの画像生成AI「Janus-Pro」と、Sakana AIによるLLMの知識を小規模モデルに転移させる蒸留法「TAID」を取り上げます。

OpenAI「o3-mini-high」でゲーム生成祭り o1より高速、低料金、コーディング能力が高く気軽に生成(生成AIクローズアップ) 画像
テクノロジー

OpenAI「o3-mini-high」でゲーム生成祭り o1より高速、低料金、コーディング能力が高く気軽に生成(生成AIクローズアップ)

今回は、OpenAIが1月31日(現地時間)に発表した「o3-mini」を取り上げます。

OpenAIを上回るByteDanceのブラウザ操作AIエージェント「UI-TARS」、o1相当の中国系AI続々登場「DeepSeek-R1」「Kimi k1.5」「Doubao-1.5-pro」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

OpenAIを上回るByteDanceのブラウザ操作AIエージェント「UI-TARS」、o1相当の中国系AI続々登場「DeepSeek-R1」「Kimi k1.5」「Doubao-1.5-pro」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第80回)では、1枚の画像やテキストから高解像度のテクスチャ付き3Dアセットを生成するAIモデル「Hunyuan3D 2.0」や、ByteDanceのブラウザを自動操作するAIエージェント「UI-TARS」を取り上げます。

「うんうんうん」「はいはいはい」と会話の間を埋め、被せるようにグイグイ対話する日本語専用リアルタイム音声会話AI「J-Moshi」を名古屋大学が開発(生成AIクローズアップ) 画像
テクノロジー

「うんうんうん」「はいはいはい」と会話の間を埋め、被せるようにグイグイ対話する日本語専用リアルタイム音声会話AI「J-Moshi」を名古屋大学が開発(生成AIクローズアップ)

今回は、日本語でリアルタイムに音声対話してくれるAIモデル「J-Moshi」に注目します。名古屋大学の研究者らが開発したこのAIモデルは、ユーザーの声を聞いて内容に応じた発話を同時に行います。

キャラクターの顔を4090でリアルタイム自演できる動画生成AI「RAIN」、400万トークンを処理できる大規模言語モデル「MiniMax-01」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

キャラクターの顔を4090でリアルタイム自演できる動画生成AI「RAIN」、400万トークンを処理できる大規模言語モデル「MiniMax-01」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第79回)では、自分の動きに応じてキャラクターの顔をリアルタイムに動かせる動画生成AI「RAIN」、400万トークンを処理できる大規模言語モデル「MiniMax-01」を取り上げます。

世界初のチャットボット「ELIZA」、60年の時を経て復活。オープンソース化され、UNIX系OSで実行可能に(生成AIクローズアップ) 画像
テクノロジー

世界初のチャットボット「ELIZA」、60年の時を経て復活。オープンソース化され、UNIX系OSで実行可能に(生成AIクローズアップ)

世界初のAIチャットボット「ELIZA」(イライザ)を60年ぶりに復活させた研究「ELIZA Reanimated: The world’s first chatbot restored on the world’s first time sharing system」

アイディアを入力するだけ、自律AIたちが調査→実験→論文執筆の研究全般を行うAMD開発「Agent Laboratory」、音声に応じて自然な口パクを生成する動画AI「LatentSync」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

アイディアを入力するだけ、自律AIたちが調査→実験→論文執筆の研究全般を行うAMD開発「Agent Laboratory」、音声に応じて自然な口パクを生成する動画AI「LatentSync」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第78回)では、自律AIたちが研究プロセス全般を自動で実行するモデル「Agent Laboratory」、ロボットや自動運転車などの物理AI向けデジタル環境学習プラットフォーム「Cosmos」を取り上げます。

AIでフリーランスの収入が「減る職種」と「増える職種」。その境目にある“変曲点”とは?(生成AIクローズアップ) 画像
テクノロジー

AIでフリーランスの収入が「減る職種」と「増える職種」。その境目にある“変曲点”とは?(生成AIクローズアップ)

今回は、AIがフリーランス(オンライン)の各仕事にどのような影響を及ぼし、職種による違いを分析した論文「AI and Freelancers: Has the Inflection Point Arrived?」に注目します。

動画生成AIにも発展可能。“文章から物理シミュレーションを生成するAI”内蔵の高速物理エンジン「Genesis」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

動画生成AIにも発展可能。“文章から物理シミュレーションを生成するAI”内蔵の高速物理エンジン「Genesis」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第77回)では、テキストから物理シミュレーションを生成するAIを内蔵した高速物理エンジン「Genesis」、GPT-4oやClaude-3.5-Sonnetに匹敵するオープンソースの大規模言語モデル「DeepSeek-V3」を取り上げます。

AIが生徒に囲碁を教えた結果、男女の実力差が解消。男女差は人間指導が原因?(生成AIクローズアップ) 画像
テクノロジー

AIが生徒に囲碁を教えた結果、男女の実力差が解消。男女差は人間指導が原因?(生成AIクローズアップ)

今回は、AI教師が囲碁を生徒に指導すると学習効果はどうなるかを調査した研究論文「Can Artificial Intelligence Improve Gender Equality? Evidence from a Natural Experiment」に注目します。

リアルタイム文章読み上げAI「CosyVoice 2」、アニメの中間フレーム自動生成AI「AniDoc」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

リアルタイム文章読み上げAI「CosyVoice 2」、アニメの中間フレーム自動生成AI「AniDoc」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第76回)では、アニメの自動彩色と中間フレームを生成できるAIモデル「AniDoc」と、Metaの動画理解AIモデル「Apollo」をご紹介します。

OpenAI「o3」は本当に“AGI”に近いのか? AGIレベルを評価する「ARC-AGI」の開発者が解説(生成AIクローズアップ) 画像
テクノロジー

OpenAI「o3」は本当に“AGI”に近いのか? AGIレベルを評価する「ARC-AGI」の開発者が解説(生成AIクローズアップ)

OpenAIが最近発表したAIモデル「o3」と汎用人工知能(AGI)について、AGIの性能を評価するベンチマーク「ARC-AGI」の開発者フランソワ・ショレ氏(Googleの研究者)が考察した記事に注目します。

MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第75回)では、Microsoftの新しい言語モデル「Phi-4」や、カメラ越しに映る現実をリアルタイムに理解するAIモデル「IXC2.5-OL」を取り上げます。

AIは無知をどこまで認識できるか? 人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた(生成AIクローズアップ) 画像
テクノロジー

AIは無知をどこまで認識できるか? 人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた(生成AIクローズアップ)

AIたちが「答えが分からない」と自身の無知を認識できるかを検証した論文「The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz」を取り上げます。

Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説(生成AIウィークリー)

OpenAIは、ChatGPTの新しい有料プラン「ChatGPT Pro」を発表しました。価格は月額200ドルで、最高レベルの「OpenAI o1」を含むすべてのモデルを無制限で使用することができます。

AIで「量子もつれ」の新たな生成方法を発見。量子インターネット構築が容易になる可能性(生成AIクローズアップ) 画像
テクノロジー

AIで「量子もつれ」の新たな生成方法を発見。量子インターネット構築が容易になる可能性(生成AIクローズアップ)

中国の南京大学やドイツのMax Planck Institute for the Science of Lightに所属する研究者らが、AIシステムを用いて量子もつれの新しい生成方法を発見した論文「Entangling Independent Particles by Path Identity」を解説します。

NVIDIAの最新生成AI。高解像度画像をFLUX.1の100倍以上高速に作り出すAI「Sana」、テキストから高品質な3Dアセットを生成するAI「Edify 3D」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

NVIDIAの最新生成AI。高解像度画像をFLUX.1の100倍以上高速に作り出すAI「Sana」、テキストから高品質な3Dアセットを生成するAI「Edify 3D」など生成AI技術5つを解説(生成AIウィークリー)

NVIDIAが主導して開発した、高解像度の画像を高速に生成するモデル「Sana」と、テキストから3Dアセットを生成するAI「Edify 3D」などを紹介します

数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告(生成AIクローズアップ) 画像
テクノロジー

数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告(生成AIクローズアップ)

大規模言語モデル(LLM)の数十億のパラメータの中でたった1つのパラメータを削除するだけで、モデルのテキスト生成能力が完全に崩壊することを発見した論文「The Super Weight in Large Language Models」について解説します。

Claude 3.5 Computer Useのゲーム操作はどのレベル? 映像内の混雑シーンでも高速に動く物体を追跡できる「SAMURAI」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Claude 3.5 Computer Useのゲーム操作はどのレベル? 映像内の混雑シーンでも高速に動く物体を追跡できる「SAMURAI」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第73回)では、生成AIでコンピュータを操作する「Claude 3.5 Computer Use」の性能調査や、動画内の動く物体を追跡し分離するAI「SAMURAI」を取り上げます。

“実在する人間”の考えをクローンした自律AIを1000体以上生成。高い精度で世論調査や社会の反応予測など活用へ(生成AIクローズアップ) 画像
テクノロジー

“実在する人間”の考えをクローンした自律AIを1000体以上生成。高い精度で世論調査や社会の反応予測など活用へ(生成AIクローズアップ)

実在する人の性格や考えを忠実にコピーしたAIエージェント(自律AI)を1000体以上生成した論文「Generative Agent Simulations of 1,000 People」を取り上げます。

自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第72回)では、GPT-4oのコーディング能力に匹敵するオープンソースなコード生成AI「Qwen2.5-Coder」や、AI生成の画像の一部のみに電子透かしを入れることができる「WAM」を取り上げます。

「生成AI vs. 著名な詩人」どっちの詩が好き? シェイクスピアやディキンソンなどとAI詩を比較(生成AIクローズアップ) 画像
テクノロジー

「生成AI vs. 著名な詩人」どっちの詩が好き? シェイクスピアやディキンソンなどとAI詩を比較(生成AIクローズアップ)

AIが生成した詩と詩人による作品とが区別できるのか、またどちらが好まれるかを調査した論文「AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably」に注目します。

PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第71回)では、1枚の画像から3D/4Dシーンを生成するAIモデル「DimensionX」や、テンセント開発の巨大オープンソース大規模言語モデル「Hunyuan-Large」を取り上げます。

“生成AI活用”の上位10%は生産性が2倍近く向上するが「下位3分の1は効果なし」の理由。研究者1000人以上でMITが検証(生成AIクローズアップ) 画像
テクノロジー

“生成AI活用”の上位10%は生産性が2倍近く向上するが「下位3分の1は効果なし」の理由。研究者1000人以上でMITが検証(生成AIクローズアップ)

生成AIが科学的発見とイノベーションにどのような影響を与えるのかについて、研究者たちに生成AIツールを使わせて、その効果を検証した論文「Artificial Intelligence, Scientific Discovery, and Product Innovation」に注目します。

ゲームエンジン不要。プレイ操作に応じてAIがリアルタイム生成するオープンワールドゲーム「Oasis」、Minecraftに500体の自律AIによる文明構築など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

ゲームエンジン不要。プレイ操作に応じてAIがリアルタイム生成するオープンワールドゲーム「Oasis」、Minecraftに500体の自律AIによる文明構築など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第70回)では、劣化した写真を修復するAIモデル「DreamClear」や、新しいText-to-Speechモデル「MaskGCT」を取り上げます。

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む(生成AIクローズアップ)  画像
テクノロジー

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む(生成AIクローズアップ) 

今回は、自然界に存在しないDNA配列を生成できるAIシステムを提案した論文「Machine-guided design of cell-type-targeting cis-regulatory elements」に注目します。

商用可能な高精度オープン動画生成AI「Mochi 1」と「Allegro」、数時間喋らせるローカル実行可能なリップシンク生成AI「Hallo2」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

商用可能な高精度オープン動画生成AI「Mochi 1」と「Allegro」、数時間喋らせるローカル実行可能なリップシンク生成AI「Hallo2」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第69回)では、顔の静止画を音声駆動でアニメーション化するオープンソースのリップシンク生成AI「Hallo2」や、マイクロソフトが開発するAIが画面操作する「OmniParser」をご紹介します。また、オープンソースな動画生成AIを2つ、商用利用可能な「Allegro」と、2,840万ドルの資金調達に成功したGenmoが開発した「Mochi 1」を取り上げます。

「“毒入り音楽”でAIに学習させない」――人には聞こえないノイズを音声にこっそり入れ訓練不能にする技術(生成AIクローズアップ) 画像
テクノロジー

「“毒入り音楽”でAIに学習させない」――人には聞こえないノイズを音声にこっそり入れ訓練不能にする技術(生成AIクローズアップ)

人には聞こえないノイズを音楽に埋め込み、その音声をAIモデルが学習できないようにする防御フレームワークを提案した論文「HarmonyCloak: Making Music Unlearnable for Generative AI」を取り上げます。

1000憶パラメータLLMをシングルCPUでローカル実行できる「bitnet.cpp 1.0」、新テキスト読み上げAI「F5-TTS」など生成AI技術6つを解説(生成AIウィークリー) 画像
テクノロジー

1000憶パラメータLLMをシングルCPUでローカル実行できる「bitnet.cpp 1.0」、新テキスト読み上げAI「F5-TTS」など生成AI技術6つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第68回)では、テキストを読み上げるTTSシステム「F5-TTS」や、会話AIモデル「Ichigo」を取り上げます。また、単一CPUでLLMで実行できる、Microsoftの1ビットLLM推論フレームワーク「bitnet.cpp 1.0」などをご紹介します。

ノーベル化学賞受賞の「AlphaFold2」、精子と卵子が結びつく仕組みを新発見(生成AIクローズアップ) 画像
テクノロジー

ノーベル化学賞受賞の「AlphaFold2」、精子と卵子が結びつく仕組みを新発見(生成AIクローズアップ)

今年のノーベル化学賞を受賞した2人が開発に貢献したタンパク質構造AI予測ツール「AlphaFold」シリーズによって、精子と卵子の結合メカニズムを明らかにした論文「A conserved fertilization complex bridges sperm and egg in vertebrates」に注目します。

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第67回)では、商用利用可能なマルチモーダル大規模言語モデル「ARIA」と動画生成AI「Pyramid Flow」などを取り上げます。

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析(生成AIクローズアップ) 画像
テクノロジー

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析(生成AIクローズアップ)

AIがRNAの未知なる領域を解析し、7万以上の新種ウイルスを発見した論文「Using artificial intelligence to document the hidden RNA virosphere」について。

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、日本語専用LLMベンチマーク「JMMMU」や、Appleの画像深度推定モデル「Depth Pro」を取り上げます。また、Metaが開発した動画生成AI「MovieGen」や、テキストや画像1枚から3Dコンテンツを生成する「Flex3D」をご紹介します。

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ) 画像
テクノロジー

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ)

今回は、スマートグラスに映る他人の顔から名前や住所などの個人情報を特定する技術を説明したドキュメント「I-XRAY: The AI Glasses That Reveal Anyone’s Personal Details—Home Address, Name, Phone Number, and More—Just from Looking at Them」に注目します。

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ) 画像
テクノロジー

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ)

今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第65回)では、対話スピードや会話中の割り込みの自然さなど、人間と話しているかのような会話ができるモデル「Moshi」や、ByteDanceが開発した音楽生成・編集モデル「Seed-Music」を取り上げます。

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ) 画像
テクノロジー

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ)

「私はロボットではありません」でお馴染みのGoogleが開発する「CAPTCHA」を突破するAIシステムを提案した論文「Breaking reCAPTCHAv2」を取り上げます。

オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第64回)では、オープンソースな音声AI技術を2つ、AIと音声対話できる「LLaMA-Omni」と、テキストを読み上げる「Fish Speech V1.4」を取り上げます。

生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ) 画像
テクノロジー

生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ)

1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、大規模言語モデル(LLM)は自身が出力する「幻覚」(ハルシネーション)からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。

最高性能うたうオープンソースLLM「Reflection 70B」、動画生成AIでスーパーマリオのプレイ映像を生成する「MarioVGG」など生成AI技術6つを解説(生成AIウィークリー) 画像
テクノロジー

最高性能うたうオープンソースLLM「Reflection 70B」、動画生成AIでスーパーマリオのプレイ映像を生成する「MarioVGG」など生成AI技術6つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第63回)では、GPT-4oやClaude 3.5 SonnetなどのクローズドLLMと同等以上の性能を謳うオープンソースLLM「Reflection 70B」や、画像生成AI「FLUX」をベースにした音楽生成AI「FluxMusic」などを取り上げます。

  • 108件中 1 - 42 件を表示
  • 次へ