OpenAIの新しいAIモデルo3とo4-miniは「画像で考える」ことが可能に

トピック — 人工知能

出版2025年4月18日

OpenAIのo3およびo4-miniモデルは、ChatGPT Plus、Pro、Teamユーザーに現在ご利用いただけます。エンタープライズおよび教育機関のユーザーは来週からアクセス可能になります。

OpenAI の CEO サム・アルトマン氏と同社のロゴの写真。 — OpenAIのCEOサム・アルトマン氏。画像：クリエイティブ・コモンズ

OpenAIは、文字通り「画像で考える」ことができる2つの新しいAIモデル「o3」と「o4-mini」を発表しました。これは、機械が画像を理解する方法における大きな前進です。OpenAIのプレスリリースで発表されたこれらのモデルは、テキストと同じように画像についても推論することができ、内部的な思考プロセスの一環として写真の切り抜き、ズーム、回転といった処理を実行できます。

このアップデートの中心となるのは、視覚的推論と言語的推論を融合する機能です。

「OpenAI o3とo4-miniは、思考の連鎖において画像を用いた推論を行うことで、視覚認識における大きな進歩を表しています」と、同社はプレスリリースで述べています。従来のバージョンとは異なり、これらのモデルは個別の視覚システムに依存せず、画像ツールとテキストツールをネイティブに組み合わせることで、より豊かで正確な回答を提供します。

「イメージで考える」とはどのような仕組みでしょうか?

これらのモデルは、人間と同じように、思考プロセスの一環として画像を切り抜いたり、ズームしたり、回転したり、反転したりすることができます。写真に何が写っているかを認識するだけでなく、そこから結論を導き出しているのです。

同社は、「ChatGPTの強化されたビジュアルインテリジェンスは、これまで以上に徹底的、正確、かつ確実に画像を分析することで、より困難な問題を解決するのに役立ちます」と述べています。

つまり、手書きの数学の問題、ぼやけた標識、複雑なグラフなどの写真をアップロードすると、モデルはそれを理解できるだけでなく、段階的に分解して説明することもできるようになり、おそらく以前よりもさらに優れたものになるでしょう。

主要ベンチマークで前モデルを上回る

これらの新しい機能は理論上だけ印象的というわけではない。OpenAI によれば、両モデルともトップクラスの学術的および AI ベンチマークに関して従来のモデルを上回っているという。

「当社のモデルは、STEM分野の質問応答（MMMU、MathVista）、図表の読み取りと推論（CharXiv）、知覚プリミティブ（VLMs are Blind）、そして視覚探索（V*）において、新たな最高水準の性能を達成しました」と同社は声明で述べている。「V*では、当社の視覚推論アプローチは95.7%の精度を達成し、ベンチマークをほぼクリアしました。」

しかし、モデルは完璧ではありません。OpenAIは、モデルが過剰に考えすぎて、長時間にわたる不必要な画像操作につながることがあると認めています。また、画像分析ツールを正しく使用していても、AIが見たものを誤って解釈するケースもあります。同社はまた、同じタスクを複数回実行する場合の信頼性の問題についても警告しています。

OpenAI o3 と o4-mini は誰が使用できますか?

4月16日より、ChatGPT Plus、Pro、Teamユーザーはo3とo4-miniの両方をご利用いただけます。これらは、o1やo3-miniなどの旧モデルの後継となります。エンタープライズおよび教育機関のユーザーは来週からアクセス可能となり、無料ユーザーは新機能「Think」を通じてo4-miniをお試しいただけます。

記事をシェア

こちらもご覧ください

OpenAIがイーロン・マスクを相手取って起こした反訴は、嫌がらせと「偽装」買収提案を主張している。
OpenAI、歴史的な資金調達ラウンドで400億ドルを確保 ― しかし100億ドルの落とし穴あり
OpenAIとGoogle、英国政府のAI著作権提案を拒否
プロンプトエンジニアになる方法
人工知能：さらに読むべき記事

アミヌ・アブドゥライ

Aminu Abdullahiは、経験豊富なB2Bテクノロジーおよび金融ライターです。TechRepublic、eWEEK、Enterprise Networking Planet、eSecurity Planet、CIO Insight、Enterprise Storage Forum、IT Business Edge、Webopedia、Software Pundit、Geekflareなど、様々な出版物に寄稿しています。