大模型榜单 · 2026年5月 — SuperCLUE中文大模型评测

.clue-wrap { max-width: 1100px; margin: 0 auto; font-family: -apple-system, BlinkMacSystemFont, ‘Segoe UI’, Roboto, sans-serif; color: #333; }
.clue-wrap h1 { font-size: 1.8em; font-weight: 700; margin-bottom: 8px; color: #1a1a2e; }
.clue-wrap .subtitle { color: #666; font-size: 0.95em; margin-bottom: 20px; line-height: 1.7; }
.clue-wrap .update-tag { display: inline-block; background: #e8f4fd; color: #1a73e8; padding: 3px 12px; border-radius: 12px; font-size: 0.85em; margin-bottom: 12px; }
.clue-wrap .updates { background: #f8f9fa; padding: 12px 18px; border-radius: 8px; margin-bottom: 30px; font-size: 0.9em; line-height: 1.8; color: #555; border-left: 3px solid #1a73e8; }

.clue-cards { display: flex; gap: 16px; margin-bottom: 30px; flex-wrap: wrap; }
.clue-card { flex: 1; min-width: 200px; background: #fff; border: 1px solid #e8ecef; border-radius: 10px; padding: 20px; box-shadow: 0 1px 4px rgba(0,0,0,0.04); }
.clue-card h3 { font-size: 0.85em; color: #888; margin: 0 0 6px 0; font-weight: 500; text-transform: uppercase; letter-spacing: 0.5px; }
.clue-card .value { font-size: 1.8em; font-weight: 700; color: #1a1a2e; }
.clue-card .desc { font-size: 0.8em; color: #999; margin-top: 4px; }

.bar-chart { margin: 30px 0; }
.bar-chart .bar-item { display: flex; align-items: center; margin-bottom: 8px; }
.bar-chart .bar-label { width: 200px; font-size: 0.85em; text-align: right; padding-right: 12px; color: #444; flex-shrink: 0; }
.bar-chart .bar-track { flex: 1; height: 26px; background: #f0f2f5; border-radius: 4px; overflow: hidden; }
.bar-chart .bar-fill { height: 100%; border-radius: 4px; display: flex; align-items: center; padding-left: 8px; font-size: 0.8em; color: #fff; font-weight: 600; }
.region-overseas .bar-fill { background: linear-gradient(90deg, #4f8cf7, #6ba3ff); }
.region-cn .bar-fill { background: linear-gradient(90deg, #e8574a, #f0706a); }

.clue-table-wrap { overflow-x: auto; margin: 30px 0; border: 1px solid #e8ecef; border-radius: 10px; }
.clue-table { width: 100%; border-collapse: collapse; font-size: 0.82em; min-width: 900px; }
.clue-table th { background: #f8f9fa; padding: 10px 8px; text-align: center; font-weight: 600; color: #555; border-bottom: 2px solid #e0e4e8; font-size: 0.85em; white-space: nowrap; }
.clue-table td { padding: 8px; text-align: center; border-bottom: 1px solid #f0f2f5; }
.clue-table tr:hover { background: #f5f8ff; }
.clue-table .rank-num { display: inline-block; width: 24px; height: 24px; line-height: 24px; border-radius: 50%; background: #e8ecef; color: #666; font-weight: 600; font-size: 0.85em; }
.clue-table .rank-1 { background: #ffd700; color: #8b6914; }
.clue-table .rank-2 { background: #e8e8e8; color: #555; }
.clue-table .rank-3 { background: #e8d0b0; color: #8b5e3c; }
.clue-table .model-name { font-weight: 600; color: #1a1a2e; text-align: left; white-space: nowrap; }
.clue-table .score-high { color: #2e7d32; font-weight: 600; }
.clue-table .org-tag { display: inline-block; padding: 2px 8px; border-radius: 10px; font-size: 0.85em; }
.clue-table .org-tag.overseas { background: #e3f2fd; color: #1565c0; }
.clue-table .org-tag.cn { background: #fbe9e7; color: #bf360c; }
.clue-table .open { color: #2e7d32; } .clue-table .closed { color: #c62828; }
.clue-table .top-row td { background: #fffde7 !important; }

.task-grid { display: grid; grid-template-columns: repeat(auto-fill, minmax(340px, 1fr)); gap: 16px; margin: 24px 0; }
.task-card { border: 1px solid #e8ecef; border-radius: 10px; padding: 18px; background: #fff; }
.task-card h4 { margin: 0 0 12px 0; font-size: 1em; color: #333; }

.data-source { margin-top: 40px; padding: 16px 20px; background: #f8f9fa; border-radius: 8px; font-size: 0.85em; color: #888; line-height: 1.7; }
.data-source a { color: #1a73e8; text-decoration: none; }
.data-source a:hover { text-decoration: underline; }

/* Dark mode overrides */
html.io-black-mode .clue-wrap,
html.io-black-mode .clue-wrap h1,
html.io-black-mode .clue-wrap h2,
html.io-black-mode .clue-wrap h4 { color: #e0e0e0; }
html.io-black-mode .clue-wrap .subtitle,
html.io-black-mode .clue-wrap .desc { color: #999; }
html.io-black-mode .clue-card { background: #2a2a2e; border-color: #3a3a3e; box-shadow: none; }
html.io-black-mode .clue-card .value { color: #e0e0e0; }
html.io-black-mode .clue-wrap .updates { background: #2a2a2e; color: #bbb; border-left-color: #4a8cf7; }
html.io-black-mode .bar-chart .bar-track { background: #333; }
html.io-black-mode .bar-chart .bar-label { color: #bbb; }
html.io-black-mode .clue-table-wrap { border-color: #3a3a3e; }
html.io-black-mode .clue-table th { background: #2a2a2e; color: #bbb; border-bottom-color: #3a3a3e; }
html.io-black-mode .clue-table td { border-bottom-color: #2a2a2e; }
html.io-black-mode .clue-table tr:hover td { background: #333; }
html.io-black-mode .clue-table .model-name { color: #e0e0e0; }
html.io-black-mode .task-card { background: #2a2a2e; border-color: #3a3a3e; }
html.io-black-mode .task-card p { color: #bbb !important; }
html.io-black-mode .task-card h4 { color: #ddd !important; }
html.io-black-mode .data-source { background: #2a2a2e; color: #888; }
html.io-black-mode .clue-wrap .update-tag { background: #1a3a5e; color: #6ab0ff; }
html.io-black-mode .clue-wrap [style*=”background:#f8f9fa”] { background: #2a2a2e !important; color: #bbb !important; }
html.io-black-mode .clue-table .top-row td { background: #3a3a1e !important; }
html.io-black-mode .clue-table .rank-num { background: #444; color: #aaa; }
html.io-black-mode .clue-table .rank-1 { background: #8b7530; color: #ffd700; }
html.io-black-mode .clue-table .rank-2 { background: #555; color: #ccc; }
html.io-black-mode .clue-table .rank-3 { background: #6b4e2c; color: #e8d0b0; }

大模型榜单 · 2026年5月

基于 SuperCLUE 中文通用大模型测评基准，涵盖数学推理、科学推理、代码生成、精确指令遵循、幻觉控制、智能体（任务规划）六大维度，共计 492 道新题，测评 23 个国内外主流大模型。

📢 最近更新：2026年5月29日

• 5月通用榜已更新，本页面同步最新数据
• EmbodiedCLUE-World：具身智能世界模型评测 5月榜单已更新

智能指数

75.73

满分100 · Gemini-3.1-Pro最强

评测模型

国内外主流大模型

评测题目

492

2026年5月全新原创题

六维任务

推理+应用能力全覆盖

智能指数排行

■ 海外模型 ■ 国内模型

Gemini-3.1-Pro

75.73

GPT-5.5(high)

74.27

Claude-Opus-4.8

73.93

Claude-Opus-4.7

73.52

Gemini-3.5-Flash

71.51

DeepSeek-V4-Pro

70.48

Qwen3.7-Max

70.22

豆包Seed-2.0-pro

69.96

Kimi-K2.6

68.66

DeepSeek-V4-Flash

67.49

完整榜单（含六项细分得分）

满分100分。海外模型与国内模型分列，国内模型按排名分组。

排名	模型名称	机构	开/闭	总分	数学	科学	代码	指令	幻觉	智能体	属地	日期
🏆 海外第一梯队
—	Gemini-3.1-Pro-Preview(high)	Google	闭	75.73	82.46	71.93	81.47	56.19	87.23	75.12	海外	5.28
—	GPT-5.5(high)	OpenAI	闭	74.27	82.46	63.16	72.88	53.33	87.26	86.56	海外	5.28
—	Claude-Opus-4.8(high)	Anthropic	闭	73.93	78.95	77.19	83.58	44.76	87.48	71.63	海外	5.29
—	Claude-Opus-4.7(high)	Anthropic	闭	73.52	80.70	68.42	79.01	56.19	81.11	75.70	海外	5.28
—	Gemini-3.5-Flash(high)	Google	闭	71.51	82.46	75.44	70.66	44.76	86.16	69.60	海外	5.28
🇨🇳 国内榜单
1	DeepSeek-V4-Pro(max)	深度求索	开	70.48	71.93	70.18	74.95	48.57	79.14	78.12	国内	5.28
1	Qwen3.7-Max(Thinking)	阿里巴巴	闭	70.22	82.46	73.68	79.69	31.43	82.91	71.16	国内	5.28
1	豆包Seed-2.0-pro	字节跳动	闭	69.96	77.19	75.44	67.63	43.81	79.92	75.77	国内	5.28
2	Kimi-K2.6-Thinking	月之暗面	开	68.66	75.93	70.18	75.79	30.48	78.66	80.95	国内	5.28
3	DeepSeek-V4-Flash	深度求索	开	67.49	82.69	71.93	66.75	37.14	70.90	75.56	国内	5.28
3	Qwen3.6-Max-Preview	阿里巴巴	闭	67.04	66.67	68.42	66.21	32.38	85.14	83.41	国内	5.28
4	豆包Seed-2.0-lite	字节跳动	闭	66.12	75.44	71.93	57.59	40.00	78.86	72.92	国内	5.28
5	GLM-5.1	智谱AI	开	63.24	70.18	68.42	70.80	28.57	74.67	66.80	国内	5.28
5	文心ERNIE 5.1	百度	闭	63.12	68.42	57.89	57.57	47.62	76.81	70.44	国内	5.28
6	Qwen3.6-27B(Thinking)	阿里巴巴	开	61.95	68.42	68.42	63.43	20.95	77.11	73.39	国内	5.28
—	Gemma-4-31B	Google	开	58.11	75.44	66.67	65.76	0.95	82.95	56.87	海外	5.28
7	MiMo-V2.5-Pro	小米集团	开	57.31	69.64	66.67	67.52	13.33	64.53	62.16	国内	5.28
7	Step-3.7-Flash	阶跃星辰	开	56.40	66.67	66.67	65.33	12.38	60.13	67.24	国内	5.29
—	Grok-4.3	xAI	闭	55.54	57.89	61.40	66.73	22.86	70.51	53.87	海外	5.28
8	Spark X2	科大讯飞	闭	54.53	68.42	70.18	50.96	2.86	62.92	71.83	国内	5.28
8	Step-3.5-Flash	阶跃星辰	开	54.33	64.91	59.65	62.81	12.38	61.27	64.99	国内	5.28
9	MiniMax-M2.7	稀宇科技	开	52.14	64.91	45.61	61.96	22.86	57.41	60.06	国内	5.28
10	混元Hy3 preview	腾讯	开	49.61	50.88	57.89	56.25	8.57	67.63	56.43	国内	5.28

六大维度解读

🧮 数学推理

考察模型运用数学概念和逻辑进行多步推理的能力。包括几何学、代数学、概率论等竞赛级别数据集。

最强：DeepSeek-V4-Flash 82.69 · 国产第一

🔬 科学推理

考察模型在跨学科背景下理解因果关系的能力。包括物理、化学、生物等研究生级别科学数据集。

最强：Claude-Opus-4.8 77.19 · 海外领先

💻 代码生成

覆盖独立函数生成（数据结构、算法）和Web应用生成两种类型。通过单元测试和功能测试评分。

最强：Claude-Opus-4.8 83.58 · 代码之王

🎯 精确指令遵循

考察模型是否严格遵循指定的输出格式和约束条件。包括结构约束、量化约束、语义约束等场景。

最强：Gemini-3.1-Pro 56.19 · 整体偏低

🔍 幻觉控制

考察模型在执行中文生成任务时应对忠实性幻觉的能力。包括文本摘要、阅读理解、多文本问答等。

最强：Claude-Opus-4.8 87.48 · 可信度最高

🤖 智能体

考察模型在复杂任务场景中制定结构化行动方案的能力。包括生活服务、工作协作、学习成长等场景。

最强：GPT-5.5 86.56 · 任务规划王者

榜单要点

• 海外模型仍全面领先。 Gemini-3.1-Pro、GPT-5.5、Claude-Opus-4.8 占据前三，总分均超 73 分。国内模型尚未突破 71 分大关。

• DeepSeek-V4-Pro 位列国产第一。 总分 70.48 与 Qwen3.7-Max（70.22）、豆包Seed-2.0-pro（69.96）组成国产第一梯队，三者差距不到 1 分。

• 指令遵循是普遍短板。 几乎所有模型在此项得分偏低（大多 20-56 分）。高精度指令遵循仍然是行业难题。

• 开源模型崛起。 DeepSeek、Qwen、Kimi 的开源版本均进入国内前三，开源策略在大模型竞争中具备强劲生命力。

• 海外模型总分整体超越国内，但国内模型在某些专项（如 DeepSeek-V4 的数学推理 82.69）上已具备世界级水准。

📊 数据来源：SuperCLUE 中文大模型测评基准 · 2026年5月通用榜单

SuperCLUE 是 CLUE 基准在大模型时代的发展和延续，致力于科学、客观、中立的大模型评测。指南针导航收录的 AI 工具均可在站内搜索查找使用方式。

📖 推荐阅读

# AI 模型与平台

文章版权归作者所有，未经允许请勿转载。