ジャンナのテーマ ライセンスが検証されていません. テーマ オプション ページに移動してライセンスを検証します. ドメイン名ごとに XNUMX つのライセンスが必要です.

ChatGPT o5-mini が他の AI モデルより優れている 3 つの理由

ついに、OpenAI が先駆的なモデルを発表しました。 o3-mini 今週末の中国のDeepSeek R1思考モデルへの対応。 o3シリーズのモデルは昨年3月に発表されました。 OpenAI は時間を無駄にせず、AI レースでのリード維持のために o3-mini と o3-mini-high をリリースしました。そこで、ChatGPT oXNUMX-mini が他の AI モデルと比べて優れている点は何なのかを知り、テストしてみました。私たちは彼のプログラミング能力をテストし、さまざまな基準について詳しく話し合いました。これを踏まえて、このテーマについて詳しく見ていきましょう。

1. 優れたソフトウェアパフォーマンス

OpenAIによると、o3-miniモデルは低コストと高速性を維持しながら、優れたソフトウェアパフォーマンスを提供するという。 o3-mini より前に、Anthropic の Claude 3.5 Sonnet モデルがリリースされました。 クロード 3.5 ソネット クエリをプログラミングするのに最適な選択肢です。しかし、o3-mini のリリース、具体的には ChatGPT Plus および Pro ユーザーが利用できる o3-mini-high モデルのリリースにより、この状況は変わります。

o3 mini を使って自動プレイのスネークゲームを作成する

モデルをテストしました。 o3-ミニハイ 私は彼に、複数の自走するヘビが互いに競争するスネークゲームを Python で作成するように依頼しました。モデルが Python コード全体を一度に生成するのに 10 分 XNUMX 秒かかりました。

コードを実行すると、問題なくスムーズに動作しました。人間のプレイヤーと同じように、ヘビが高精度で自力で動くのを見るのは楽しかったです。

o3 miniが開発した自動プレイのスネークゲーム

o3-mini-high モデルは、Codeforces 競技プログラミング プラットフォームで 2,130 点のスコアを達成し、世界のトップ 2500 プログラマーにランクインしました。さらに、現実世界のソフトウェア問題を解決する能力を評価するSWE-bench Verifiedベンチマークでは、o3-mini-highは49.3%の精度を達成しました。 大型のO1モデルよりも高い (48.9%).

したがって、o3-mini-highモデルは、 AIプログラミングヘルプ 完全な O3 モデルがリリースされるまでは、サム・アルトマン氏によると数週間以内にリリースされる予定です。

2. 高度な数学の問題を出します。

プログラミングに加えて、数学も o3-mini モデルが他の AI モデルよりも優れている分野です。数論、確率、代数、幾何学などの問題を含む 2024 年アメリカ数学試験 (AIME) では、o3-mini-high が驚異的な 87.3% の合格率を達成し、完全な o1 を上回りました。

o3 mini aime 2024 ベンチマーク

世界中の一流数学者、フィールズ賞受賞者、教授らが作成した複雑な数学の問題を扱う厳格な FrontierMath テストで、o3-mini-high モデルは 20 回の試行で 9.2% の得点を獲得しました。 XNUMX 回の受験でも XNUMX% の得点を記録しており、これは決して小さくない数字です。

これを文脈に沿って説明すると、有名な数学者テレンス・タオは、FrontierMath テストの問題を「極めて難しい」と表現しました。熟練した数学者であっても、解決には何時間も何日もかかることがあります。対照的に、他の ChatGPT の代替品は、このテストで 2% しか達成できませんでした。

3. 博士レベルの科学専門家

o3-mini-high モデルは、博士レベルの複雑な科学的質問に答える能力にも優れており、他の AI モデルを大幅に上回っています。 GPQA Diamond は、専門的な科学分野における AI モデルの能力を評価する高度な標準であり、生物学、物理学、化学の分野における高度な質問で構成されています。

o3 ミニ gpqa ダイヤモンド ベンチマーク

GPQA ダイヤモンド ベンチマークでは、o3-mini-high は驚異的な 79.7% のスコアを獲得し、より大きな o1 モデル (78.0%) を上回りました。比較すると、Google の最新の論理的推論モデルである Gemini 2.0 Flash Thinking (Exp-01-21) は 73.3% のスコアを達成しました。新しい Claude 3.5 Sonnet モデルでさえ、GPQA Diamond 基準で 65% のスコアしか獲得できませんでした。

これは、OpenAI のより小型の o3-mini モデルに、考えるためのより多くの時間と計算能力が与えられると、専門的な科学的質問に答える上で他の AI モデルよりも優れた性能を発揮できることを示しています。

4. 一般知識

o3-mini はサイズが小さく、プログラミング、数学、科学に特化しているため、一般的な知識分野では、より大きなモデルよりも優れたパフォーマンスを発揮することは期待できません。しかし、サイズは小さいにもかかわらず、大型モデルに非常に近いものとなっています。幅広いトピックにわたって AI モデルのパフォーマンスを測定する MMLU ベンチマークでは、o3-mini-high は 86.9% のスコアを獲得し、OpenAI の GPT-4o モデルは 88.7% のスコアを獲得しました。

o3 ミニ MMLU ベンチマーク

しかし、今後登場する本格的な O3 モデルは、一般的な知識領域において現在のすべての AI モデルを簡単に上回る性能を発揮すると予想されています。この予測は、MMLU ベンチマークですでに 1% を達成している完全な o92.3 モデルのパフォーマンスに基づいています。今は、標準を完全に満たす可能性のある完全な O3 モデルを待つ必要があります。

o3-miniでウェブ検索を使用する

o3-mini モデルは、現時点では比較的古い、2023 年 3 月までのデータからのみ判明しています。しかし、OpenAI は o1-mini モデルに Web 検索サポートを追加し、推論モデルが Web から最新の情報を抽出し、高度な推論操作を実行できるようにしました。 DeepSeek R3 でも同様のことが行われていますが、より論理的な推論のために Web にアクセスできる推論モデルは他にありません。このアップデートにより、絶えず変化する情報を処理する oXNUMX-mini の能力が大幅に強化されます。

これらは、o3-mini モデルの高度な機能の一部です。その間 無料のChatGPTユーザーはo3-miniにアクセスできます「思考努力」は、計算能力の消費が少ない「中」に設定されています。つまり、有料版と比較すると、結果の精度や詳細度が低くなる可能性があります。

したがって、強力な「o20-mini-high」モデルのロックを解除するには、月額 3 ドルの ChatGPT Plus に加入することをお勧めします。プロのプログラマー、研究者、STEM 学生にとって、o3-mini-high モデルは高度な推論機能と高い結果精度を提供するため、非常に便利です。

トップボタンに移動