OpenAI、ChatGPT Images 2.0発表。「思考機能」備え画像出力の精度、一貫性、視覚的な整合性高める。日本語も上達

テクノロジー AI
Munenori Taniguchi

Munenori Taniguchi

ウェブライター

  • X

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他

特集

GPT-Image-1.5のリリースからわずか4か月後、OpenAIは新バージョンとなるChatGPT Images 2.0を発表しました。

以前のバージョンでは、1枚の画像内に長文のテキストブロックや複数のテキストパネルを配置したり、ウェブサイトのスクリーンショットをリアルに生成したり、ウェブを検索して得た情報を画像に盛り込んだりといった機能をユーザーに提供してきました。

今回公開されたChatGPT Images 2.0は「詳細な指示に従い、オブジェクトを正確に配置・関連付け、高密度なテキストを備え『意図的にデザインされたような』画像が生成可能になったとOpenAIは説明しています。

特にテキスト関連では日本語、韓国語、中国語、ヒンディー語、ベンガル語といった非ラテン文字の文章表現で「著しい進歩」を果たしており、正しく、また自然な流れでテキストを記述できるようになっています。

また、Images 2.0は画像モデルとして同社初の思考機能(thinking capabilities)を備えました。ChatGPTでこのモードを選択することで「ウェブからリアルタイム情報を検索し、1つのプロンプトから複数の異なる画像を作成し、自身の出力を二重チェックする」ことが可能になります。

そのほか、出力する画像はアスペクト比の選択肢が増えており、最大2K解像度で、一度に8枚までの出力に対応するようになっています。

OpenAIは、Images 2.0の良くなったところだけでなく、不得手な処理ケースについても述べています。

たとえば、折り紙やルービックキューブといったパズルの解説のような、隠れた面、傾斜した面、反転した面が正しく表示される必要がある詳細図などでは、表現に破綻が起きる可能性があります。図面におけるラベルや矢印の表示など、特に正確性が求められるケースにおいても、出力後の確認が必要になるとしており、これらについては今後の課題だとしました。

OpenAIは、従来モデルからChatGPT Images 2.0への移行を「ツール」から「ビジュアルシステム」への進化だと述べました。そして、これにより人々がアイデアを理解し、共有し、教え、発展させることができる成果物へと変換するのを支援するとしています。

ChatGPT Images 2.0はすでに、すべてのChatGPTおよびCodexユーザーが利用できるようになっています。ただし、Thinkingモードによる高度な出力機能は、ChatGPT Plus、Pro、およびBusinessといった有料プランのユーザー向けに提供されます。

なお、開発者や企業ユーザーはChatGPT Images 2.0の画像モデルであるgpt-image-2をAPI経由で利用できますが、価格は出力する画像の品質や解像度により異なります。



【整備済み品】Apple iPhone17 Pro 1TB ディープブルー SIMフリー 5G対応
¥239,800
(価格・在庫状況は記事公開時点のものです)
《Munenori Taniguchi》

Munenori Taniguchi

Munenori Taniguchi

ウェブライター

  • X

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。