中国のAI研究所DeepSeekは最近、主力モデルR1をリリースした。同社は、このモデルがOpenAIのChatGPT o1と同等かそれ以上であると主張している。 DeepSeek はすでに ChatGPT を上回り、Apple App Store でトップになっています。米国の技術取引所は、DeepSeek のコスト効率の高いモデルの影響を受けています。そこで、両方の AI モデルを評価し、どちらがより優れているかを確認するために、以下のさまざまな複雑な推論テストで ChatGPT o1 と DeepSeek R1 を比較しました。
クイックリンク
ChatGPT o1 vs DeepSeek R1: 間違った焦点
大規模言語モデルは、しばしば「ランダムなオウム「真の一般化が欠如しており、次の単語や記号を予測するために統計的なパターンマッチングと記憶に大きく依存しているからです。しかし、人工知能の分野における最近の進歩(例えば OpenAI o3)、洗練されたモデルがある程度一般化を示し、プログラムされていなかった新たな動作を示すようになると、この物語は急速に変化します。
AI モデルのトレーニングに使用される一般的なパズル、なぞなぞ、思考実験は数多くあります。したがって、トレーニング データで利用可能な一般的なパズルの 1 つを尋ねられた場合、大規模な言語モデルは主にトレーニング セットから情報を引き出します。
しかし、モデルを誤らせるためにパズルを少し変更すると、ほとんどの 大規模言語モデルは失敗する 学習したパターンが繰り返されます。ここで、AI モデルが実際に本当の推論を適用しているのか、それとも単なる単純な記憶なのかを判断できます。
上記の質問では、外科医が少年の父親であることが明確に述べられていますが、ChatGPT o1 と DeepSeek R1 はどちらも間違った答えを出しています。どちらのモデルも、外科医は少年の母親であると述べており、外科医は男性であるという仮定に疑問を投げかけている。この質問は、別の可能性を探し、間違った答えに導くように設計されています。ところで、興味深いのは ジェミニ 2.0 フラッシュ (思考モデルではない)正しく答えます。
勝者:ありません
ChatGPT o1 vs DeepSeek R1: 数学 vs. 論理的推論
Google は、クックブック ページに論理的推論モデルをテストするための優れた質問をいくつか追加しました。 クックブック。私はマルチモーダル思考(+数学)の質問の1つをテキストに変換しました。 DeepSeek R1 はまだマルチメディア入力をサポートしていません。.
私のテストでは、ChatGPT o1 と DeepSeek R1 の両方が問題を正しく解決しました。どちらのモデルも「9」のボールを「6」に反転し、6 + 11 + 13 を加算して 30 という結果を出しました。どちらのモデルも素晴らしい成果です!
勝者: ChatGPT o1 と DeepSeek R1
ChatGPT o1 vs DeepSeek R1: 人類の最終試験からの問題
AI インテグリティセンター (CAIS) は最近、さまざまな学術分野における AI の急速な進歩を追跡するための「人類最後の試験 (HLE)」と呼ばれるベンチマークを発表しました。この標準には、世界中の一流の科学者、教授、研究者からの質問が含まれています。 CAIS はこれらの質問のいくつかを例としてウェブサイトに掲載しています。ギリシャ神話からの質問を選択し、ChatGPT o1 と DeepSeek R1 でテストしました。
ChatGPT o1 モデルは約 30 秒考えて、ヘルメス神がジェイソンの母方の曽祖父であると答えました。これは正解です。 DeepSeek R1 は系統を再構築するのに約 28 秒かかりましたが、「Aeolus」と答えましたが、これは間違っています。このテストは主に記憶力を評価するものですが、AI モデルが論理と関係性を理解しているかどうかを確認するための重要な方法です。
勝者: チャットGPT o1
ChatGPT o1 vs DeepSeek R1: トロリーのジレンマ
有名なトロッコ問題については聞いたことがあると思いますが、この質問は、誤った注意の評価の一環として、モデルを混乱させるために少し変更されています(GitHub)。それでは、これらのモデルが正しい答えを得られるかどうか見てみましょう。
まず、ChatGPT o1は29秒間考えてトリックを見つけました。 すでに5人が死亡している。 片方の線路には人がいて、もう片方の線路には生きている人間がいる。 ChatGPT o1 は時間を無駄にせず、すでに死んでいる人々に危害を加えることはできないのでレバーを回すべきではないと言いました。
一方、DeepSeek R1は「死者」の部分を無視した。 トレーニングパターンへの過度の依存 そして倫理的な議論を始めました。普遍的に正しい答えは存在しないと彼は言った。 ChatGPT o1 は明らかにこのラウンドでポイントを理解しています。
勝者: チャットGPT o1
ChatGPT o1 vs DeepSeek R1: 数学的推論
数学的推論に関する別の質問では、ChatGPT o1 と DeepSeek R1 に、4 リットルと 6 リットルの 12 つのバケツを使用して正確に 1 リットルを測定するように依頼しました。 ChatGPT o47 は XNUMX 分 XNUMX 秒間考えた後、これは数学的に不可能であると答えました。これが正解です。通常、AI モデルは問題が提示されると答えを見つけようとします。
しかし、ChatGPT o1 はさらに一歩進んで最大公約数 (GCD) を計算し、4 は 6 の倍数ではないと言いました。そのため、「満たす、空にする、注ぐ」というルールを使用して正確に 4 リットルを測定することはできません。
驚くべきことに、DeepSeek R1はわずか47秒しか考えず、同じアプローチに従って次のように答えました。「これらの特定のバケット サイズでは数学的に不可能です。
勝者: ChatGPT o1 と DeepSeek R1
ChatGPT o1 vs DeepSeek R1: 政治的検閲と偏見
DeepSeek は中国の AI ラボなので、中華人民共和国に関連する多くの物議を醸すトピックについて自ら検閲を行うだろうと私は予想していました。しかし、DeepSeek R1 はさらに進んで、プロンプトで中国の国家主席である習近平について言及しても、プロンプトをトリガーできません。それは単純に機能しません。
そこで私は、DeepSeek R1 に「中国の大統領は誰ですか?」と尋ねることで、その問題を回避しようとしました。考え始めた瞬間、モデルは突然立ち止まり、「申し訳ありませんが、この種の質問にどう対処すればよいかまだわかりません。代わりに数学、プログラミング、論理について話しましょう!「
同様に、ジャック・マー、ウイグル人、独裁政権、政府、さらには民主主義に言及するプロンプトも実行できないため、混乱を招きます。
一方、私は ChatGPT o1 に、現在のアメリカ合衆国大統領であるドナルド・トランプについてのジョークを書いてもらうように依頼しましたが、問題なく応答してくれました。 ChatGPT o1 に少し下手なジョークを言ってもらうように頼んだのですが、見事にやってのけました。 ChatGPT o1 はこう返信しました: “ドナルド・トランプ氏の髪は、彼のビジネス実績よりも多くの櫛通しに耐えてきたが、その両方とも悪化し続けている。「
簡単に言えば、政治的な話題に関して厳しく検閲されていない AI モデルを探している場合は、ChatGPT o1 を選択する必要があります。
勝者: チャットGPT o1
ChatGPT o1 と DeepSeek R1 の比較: どちらを使用すべきですか?
政治トピックを除けば、DeepSeek R1はChatGPTの無料で効果的な代替手段です。 ChatGPTの最良の代替品の1つ、 そして彼 o1 モデルのパフォーマンス レベルに非常に近いです。。これらのテストで証明されているように、OpenAI モデルは一貫して DeepSeek よりも優れたパフォーマンスを発揮するため、DeepSeek R1 が ChatGPT o1 よりも優れているとは断言できません。
しかし、 DeepSeek R1 の魅力は低コストです。。 DeepSeek R1 は無料で使用できますが、OpenAI では ChatGPT o20 へのアクセスに 1 ドルかかります。
そして開発者にとって忘れてはならないのは、 DeepSeek R1 APIはChatGPT o27より1倍安価ですこれはモデルの価格設定に大きな変化をもたらします。研究コミュニティに関しては、DeepSeek チームが重みを公開し、テスト時間の計算を実現する方法に関する強化学習 (RL) 手法をオープンソース化しました。これは、OpenAI の o1 モデルを使用した新しいモデルに似ています。
さらに、DeepSeek が旧型の GPU でわずか 1 万ドルで R5.8 モデルをトレーニングするために開発した新しいモデル アーキテクチャは、他の AI ラボがはるかに低いコストで高度なモデルを構築するのに役立ちます。今後数か月以内に、他の AI 企業も DeepSeek AI の取り組みを模倣すると予想されます。
全体として、DeepSeek R1 は単なる AI モデルではなく、高価なハードウェア クラスターを必要とせずに、低予算で高度な AI モデルをトレーニングする新しい方法を提供します。