Google DeepMindが数学オリンピックのゴールドレベルの成績を達成、OpenAIに匹敵

Google DeepMindが数学オリンピックのゴールドレベルの成績を達成、OpenAIに匹敵
澄み切った青空を背景に、勝ち誇ったように金メダルを高く掲げる手。
澄み切った青空を背景に、金メダルを高く掲げる手。画像:Envato 投稿者:mohdizzuanbinroslan

Google DeepMind の最新の Gemini Deep Think 人工知能モデルは、国際数学オリンピックで金メダルレベルのパフォーマンスを達成しました。

IMOは、世界で最も権威があり、最も挑戦的な高校生数学コンテストとして知られています。今年の参加者のうち、金メダルを獲得したのはわずか10%程度で、数学界最高の栄誉であるフィールズ賞の受賞者は過去にも数多くいます。

様々なAI企業が、自社のモデルでIMO 2025の設問に挑戦し、最高得点を獲得し、競技数学のバックグラウンドを持つであろう優秀な研究者を感心させようとしました。しかし、Googleにとっては残念なことに、金メダルを獲得したGoogleの成績はライバルのOpenAIの成績と同点でした。両モデルとも6問中5問を解き、42点満点中35点を獲得しました。これは、AIの覇権をめぐる熾烈な争いを如実に示しています。

最高の数学AIをめぐる競争は泥沼化

非公式の採点

この現実から目を逸らすためか、GoogleチームはChatGPT開発者の功績を批判し続けている。DeepMindの研究者であるThang Luong氏と、OpenAIの元CTOであるMikhail Samin氏によると、ChatGPTのモデルは国際数学オリンピックの公式ガイドラインに基づいて採点されておらず、金メダル獲得の主張は検証不可能だという。

OpenAIの上級研究員ノアム・ブラウン氏はXに投稿し、オリンピック側が同コンテストの非自然言語バージョンへの参加を自社に打診したが、自然言語システムの開発を優先しているため断られたと述べた。

最終的には、未発表モデルの1つでこれらの問題を試すことにしたが、OpenAIの研究者であるアレクサンダー・ウェイ氏はXで、3人の元メダリストが独立してその解答を採点し、その点数について「全員一致の合意」に達したと述べた。

発表の冒頭で、DeepMind は「学生の解答と同じ基準を使用して、IMO コーディネーターによってモデル結果が公式に評価され、認定された最初のグループ」の 1 つであることを強調しました。

時期尚早の発表

しかし、Googleが問題視したのは採点方法だけではなかった。OpenAIが金メダルの結果を発表したのは、オリンピックが前夜、高校生部門の優勝者を発表してからわずか数時間後の土曜日の朝だった。どうやら、正式なAI競技参加者は、人間の競技結果発表後、一定期間が経過するまで待つことが求められていたようだ。これは1週間だったという説もあれば、10日間だったという説もある。

ブラウン氏はXで、オリンピックの主催者から、OpenAIは高校生たちの成績が金曜日の夜に公表されるまで結果発表を待つ必要があると言われたと述べた。しかしながら、Google DeepMindの発表は、月曜日まで待つことで「今年の学生参加者たちの素晴らしい成果を敬意を持って評価する」という姿勢を明確に示していた。

ジェミニ・ディープシンクの成果は数学能力の大きな飛躍を表している

国際数学オリンピックに挑戦したジェミニ・ディープシンクのバージョンは「強化された推論モデル」であり、人間のような段階的な論理を模倣することで複雑な問題を解決するように設計されている。

最新の強化学習技術、数学問題の豊富な解答、そしてオリンピックで出題される問題へのアプローチ方法に関するヒントを学習済みです。コンテストでは、正解だけでなく解答の提示も必須です。

金メダルを獲得したという結果はOpenAIのモデルの結果と大きく異なるものではないものの、数学能力の飛躍的な向上を示していることは確かです。2024年7月、DeepMindのAlphaProofとAlphaGeometry 2のAIシステムを組み合わせたバージョンは、スコア28点で銀メダルにとどまりました。当時は、問題に取り組む前に自然言語からドメイン固有の言語への翻訳が必要でした。Deep Thinkでは、このような翻訳は不要でした。

「自然言語の流暢さと厳密な推論(形式言語での検証済み推論を含む)を組み合わせたエージェントは、数学者、科学者、エンジニア、研究者にとって非常に貴重なツールとなり、AGIへの道筋で人類の知識を前進させるのに役立つと確信しています」とディープマインドの研究者は発表の中で述べている。

Googleは、まずこのモデルを数学者を含む信頼できるテスターに​​展開し、その後、月額250ドルのGoogle AI Ultraプランの加入者にもアクセスを拡大すると述べている。具体的な日程はまだ明らかにしていない。

先週、Google は AI 検索モードの基盤となるモデルを Gemini 2.5 Pro にアップグレードして、新たな数学機能を追加できると発表しました。

Tagged: