OpenAI Codex を使っていると「モデルを選ぶ」場面が出てきます。その中でも長時間タスクに最強と言われるのが GPT-5.1-Codex-Max です。「Max って何が違うの?」「普通の Codex モデルと何が変わるの?」という疑問に、初心者にもわかるよう答えます。
⚠️ 本記事は OpenAI 公式とは無関係の解説記事です。モデルの仕様・名称は頻繁に更新されるため、最新情報は必ず openai.com で確認してください。
GPT-5.1-Codex-Maxとは?一言で
GPT-5.1-Codex-Max は、長時間・大規模なコーディング作業に特化した OpenAI のエージェント型モデルです。
最大の特徴は 「コンパクション(compaction)」 という技術によって、複数のコンテキストウィンドウをまたいで作業を継続できる こと。これにより、数百万トークン規模のタスクを1つの作業としてこなせます。
従来モデルは「コンテキストの上限(記憶できる量)」に達すると作業が破綻していましたが、Max は 重要な情報を保持しつつ古い履歴を圧縮 することで、長時間の自走を可能にしました。
「コンパクション」をわかりやすく説明
人間で例えると、長い会議の議事録を取りながら作業する状況を想像してください。
- 従来モデル:メモ帳が一杯になると、それ以上書けず混乱する
- GPT-5.1-Codex-Max:メモ帳が一杯になりそうになると、重要な要点だけを残して古いメモを要約・圧縮し、作業を続ける
この「要約して続ける」仕組みがコンパクションです。OpenAIによれば、Max は このコンパクションをネイティブに学習した初のモデル で、複雑なリファクタリングや長時間のエージェントループでも破綻しにくくなっています。
どれくらい長く自走できるのか
OpenAIの内部評価では、GPT-5.1-Codex-Max は24時間以上にわたってタスクを継続 したケースが報告されています。
つまり、
- 「このリポジトリ全体を新しいフレームワークに移行して」
- 「全コンポーネントをリファクタして、テストも全部通して」
のような 数時間〜丸1日かかる作業を、人間が見ていなくても進められる わけです。これは Goal mode(目標達成まで自走するモード)と組み合わせると特に強力です。
性能(ベンチマーク)
コーディング能力の指標として有名な SWE-bench Verified(実際のバグ修正タスク)でのスコアを見てみましょう。
| 指標 | GPT-5.1-Codex (high) | GPT-5.1-Codex-Max (xhigh) |
|---|---|---|
| SWE-bench Verified | 73.7% | 77.9% |
| SWE-Lancer IC SWE | 66.3% | 79.9% |
| Terminal-Bench 2.0 | 52.8% | 58.1% |
さらに注目すべきは 効率性。Max は medium 設定で、従来の GPT-5.1-Codex を上回るスコアを 約30%少ない思考トークン で達成しています。つまり 「賢くなったのに、消費は減った」 という嬉しい進化です。
トークン消費が減るということは、料金プランのクレジットも節約できるということ。長時間タスクほど恩恵が大きくなります。
いつ使うべき?モデルの使い分け
GPT-5.1-Codex-Max は万能ですが、すべてのタスクに最適というわけではありません。
Max が向いているタスク
- 大規模リファクタリング(数十ファイル横断)
- フレームワークのメジャーバージョン移行
- 長時間の自走タスク(Goal modeと併用)
- コンテキストが膨大なモノレポでの作業
軽量モデルで十分なタスク
- 1ファイルの小さな修正
- 短い質問・コード解説
- ちょっとしたバグ修正
Codexのモデル使い分け全体については Codexのモデル選び完全ガイド で詳しく解説しています。
使い方:モデルの選択方法
CLIで指定する
codex --model gpt-5.1-codex-max
または設定ファイル ~/.codex/config.toml でデフォルト指定:
model = "gpt-5.1-codex-max"
VS Code拡張で指定する
VS Code拡張のチャットパネル上部にあるモデル選択メニューから「GPT-5.1-Codex-Max」を選びます。
推論レベル(effort)の調整
Max には推論の深さを示す effort 設定(medium / high / xhigh)があります。
- medium:速度と品質のバランス。日常使いに最適
- high:難しいタスク向け
- xhigh:最高品質。複雑な問題で時間をかけてでも正確さを優先
難しいタスクほど高い effort、軽いタスクほど低い effort にすると、速度とクレジット消費のバランスが取れます。
料金への影響
GPT-5.1-Codex-Max は高性能モデルなので、トークンベースの課金では消費レートがやや高めに設定されることがあります。ただし前述の通り 思考トークンを30%削減 しているため、「高いけど効率的」という性質です。
長時間タスクを1日中回すなら Pro プラン($200/月)の広い利用枠が安心です。
注意点・デメリット
- 軽いタスクにはオーバースペック:簡単な修正に使うと、待ち時間が長く感じることも
- モデル名は更新が速い:2026年には GPT-5.2-Codex など後継も登場しているため、常に最新の選択肢を確認
- 完全自動を過信しない:長時間自走できても、最後の確認は人間が行うべき
よくある質問(FAQ)
Q. GPT-5.1-Codex との違いは何ですか?
A. 最大の違いは コンパクションによる長時間・大規模対応です。GPT-5.1-Codex-Max は複数のコンテキストウィンドウをまたいで作業でき、ベンチマークスコアも高く、思考トークン効率も優れています。
Q. どのプランで使えますか?
A. ChatGPT Plus 以上で利用可能です。プランによって利用枠(レート制限)が異なります。詳しくは 料金プラン解説 を参照。
Q. 無料プランでも使えますか?
A. 無料・Goプランでは高性能モデルの利用枠が限定的です。Max を本格的に使うなら Plus 以上が現実的です(無料で使う方法)。
Q. Claude Code のモデルと比べてどうですか?
A. どちらも一級品で、タスクによって得意不得意があります。詳細は Codex vs Claude Code を参照してください。
Q. 普段はどのモデルを選べばいい?
A. 軽い作業は軽量モデル、大規模・長時間タスクは Max、と使い分けるのがおすすめ。迷ったら モデル選び完全ガイド を参考に。
まとめ
GPT-5.1-Codex-Max は、コンパクション技術で長時間・大規模なコーディングを自走できる OpenAI の強力なモデルです。24時間以上の連続作業、高いベンチマークスコア、トークン効率の良さが武器。
大規模タスクなら Max、軽いタスクなら軽量モデル、と使い分けるのがコツです。次は Goal mode(目標達成まで自走するモード)と組み合わせると、Max の真価を引き出せます。モデル全体の選び方は Codexのモデル選び完全ガイド もどうぞ。