考えるAI「Claude 3.7 Sonnet」をAnthropicが発表

本記事では、Anthropicが発表した画期的なAIモデル「Claude 3.7 Sonnet」の詳細を解説します。このモデルが持つ「推論能力」は、複雑な問題解決やコーディングタスクにおいて従来のAIを大きく上回る性能を発揮します。

業界初のハイブリッド推論モデル
1. ゲームをコーディングする事例
Claude 3.7 Sonnetの提供開始と料金体系は？
Claude 3.7 Sonnet：まとめ

業界初のハイブリッド推論モデル

Anthropicは2月19日、新たなフロンティアAIモデル「Claude 3.7 Sonnet」を発表しました。同社はこれを「業界初のハイブリッドAI推論モデル」と位置づけています。この特徴的な点は、リアルタイムの回答と時間をかけて「考え抜かれた」回答の両方を提供できる単一モデルである点です。

ユーザーは、Claude 3.7 Sonnetの「推論」能力を有効にするかどうかを選択でき、有効にした場合、AIモデルは短時間または長時間「考える」ことになります。これは、AIの応答の質を高めるために意図的に計算時間を増やすアプローチです。

この取り組みは、Anthropicが目指すAI製品のユーザーエクスペリエンス簡素化の一環でもあります。現在のAIチャットボットの多くは、コストや機能が異なる複数のオプションから選択を強いられるモデル選択画面を提示していますが、AnthropicやOpenAIなどのAI企業は、ユーザーがモデル選択について考える必要がない、単一モデルですべての作業を行うという理想を追求しています。

ゲームをコーディングする事例

「オセロのゲームを作って」と指示するだけで、以下のようなブラウザ上で遊べるゲームを３分以内に作成してくれました。

Claude 3.7 Sonnetの提供開始と料金体系は？

Claude 3.7 Sonnetは2月19日からすべてのユーザーと開発者に提供開始されましたが、モデルの推論機能へのアクセスは、Anthropicのプレミアムプラン（Claude Pro）を利用するユーザーに限定されています。

無料ユーザーは標準の非推論バージョンを利用することになりますが、それでも前モデルのClaude 3.5 Sonnetよりも性能が向上しているとAnthropicは主張しています。

Claude 3.7 SonnetのAPIの料金体系

APIの料金体系については、Claude 3.7 Sonnetは100万入力トークンあたり3ドル（約75万単語、『指輪物語』シリーズ全体よりも多い単語数に相当）、100万出力トークンあたり15ドルとなっています。

これはOpenAIのo3-mini（100万入力トークンあたり1.10ドル、100万出力トークンあたり4.40ドル）やDeepSeekのR1（100万入力トークンあたり0.55ドル、100万出力トークンあたり2.19ドル）よりも高価ですが、o3-miniとR1が純粋な推論モデルであるのに対し、Claude 3.7 Sonnetはハイブリッドモデルであることを考慮する必要があります。

AIによる「推論」の仕組み

Claude 3.7 Sonnetは、Anthropicにとって初めての「推論」能力を持つAIモデルです。推論は、従来のAI性能向上手法が頭打ちになる中、多くのAI研究所が注目している技術です。

o3-mini、R1、GoogleのGemini 2.0 Flash Thinking、xAIのGrok 3（Think）などの推論モデルは、質問に回答する前により多くの時間と計算能力を使用します。これらのモデルは問題をより小さなステップに分解し、最終的な回答の精度を向上させる傾向があります。推論モデルは必ずしも人間のように「考える」わけではありませんが、そのプロセスは演繹的推論をモデルにしています。

Anthropicの製品・研究リーダーであるDiane Pennは、最終的にはClaudeが質問について「考える」べき時間を自ら判断できるようにすることを目指していると述べています。

「人間が即答できる質問と思考が必要な質問に対して2つの別々の脳を持っていないのと同様に、我々は推論を単にフロンティアモデルが持つべき能力の1つと考えており、別のモデルで提供するのではなく、他の能力とシームレスに統合されるべきものだと考えています」とAnthropicはブログ投稿で述べています。

「思考プロセス」の可視化

Anthropicは、Claude 3.7 Sonnetが「見えるスクラッチパッド」を通じて内部の計画段階を表示できるようにしています。ほとんどのプロンプトに対してClaudeの完全な思考プロセスが表示されますが、信頼性と安全性の観点から一部が編集される場合もあります。

Anthropicによれば、Claudeの思考モードは、難しいコーディング問題やエージェントタスクなどの実際のタスク向けに最適化されています。開発者はAnthropicのAPIを使用して思考の「予算」をコントロールし、スピードとコストを回答の質と引き換えにすることができます。

ベンチマークでの性能

実世界のコーディングタスクを測定するSWE-Benchテストでは、Claude 3.7 Sonnetの精度は62.3%で、OpenAIのo3-miniモデルの49.3%を上回りました。

また、AIモデルが小売環境でシミュレートされたユーザーや外部APIとやり取りする能力を測定するTAU-Benchでは、Claude 3.7 Sonnetは81.2%のスコアを獲得し、OpenAIのo1モデルの73.5%を上回りました。

回答拒否の低減

Anthropicによれば、Claude 3.7 Sonnetは以前のモデルよりも質問への回答を拒否する頻度が少なくなり、有害な質問と無害な質問をより細かく区別できるようになったとしています。

Claude 3.5 Sonnetと比較して、不必要な拒否を45%削減したと主張しています。これは、一部のAI企業がAIチャットボットの回答制限アプローチを見直している時期に発表されました。

エージェントコーディングツール「Claude Code」

Claude 3.7 Sonnetに加えて、Anthropicはエージェントコーディングツールである「Claude Code」もリリースしています。研究プレビューとして提供されるこのツールを使用すると、開発者はターミナルから直接Claudeを通じて特定のタスクを実行できます。

デモでは、Anthropicの従業員が「このプロジェクト構造を説明して」などの簡単なコマンドでClaude Codeがコーディングプロジェクトを分析できることを示しました。

コマンドラインで平易な英語を使用することで、開発者はコードベースを修正できます。Claude Codeは変更を加える際に編集内容を説明し、プロジェクトのエラーをテストしたり、GitHubリポジトリにプッシュしたりすることもできます。Claude Codeは当初、「先着順」で限られた数のユーザーに提供される予定です。

業界での位置づけと展望

Anthropicは、AIラボが新しいAIモデルを猛烈なペースで提供している時期にClaude 3.7 Sonnetをリリースしています。Anthropicは歴史的に、より方法論的で安全性重視のアプローチを取ってきましたが、今回は業界をリードすることを目指しています。

しかし、その先駆者としての地位がどれだけ続くかは疑問です。OpenAIも独自のハイブリッドAIモデルのリリースに近づいている可能性があり、同社のCEOであるSam Altmanは「数か月以内」に到着すると述べています。

Claude 3.7 Sonnet：まとめ

Anthropicの新モデル「Claude 3.7 Sonnet」は、AIが単に高速で回答するだけでなく、人間のように「考える」時間を持つという新たなパラダイムを示しています。このハイブリッド推論モデルの登場は、AI技術の次なる進化の方向性を示唆するものであり、特に複雑な問題解決やコーディングタスクにおいて大きな可能性を秘めています。

業界全体がAIの推論能力向上に注力する中、Anthropicは「考える」と「応答する」を単一モデルで実現する先駆者となりました。OpenAIなど競合他社の動向も含め、今後のAI開発競争はさらに激化することが予想されます。ユーザーとしては、これらの高度な機能を最大限に活用できるスキルを身につけることが、ビジネスや技術開発において競争優位性をもたらすでしょう。