大模型榜单 · 2026年5月 — SuperCLUE中文大模型评测

.clue-wrap { max-width: 1100px; margin: 0 auto; font-family: -apple-system, BlinkMacSystemFont, ‘Segoe UI’, Roboto, sans-serif; color: #333; }
.clue-wrap h1 { font-size: 1.8em; font-weight: 700; margin-bottom: 8px; color: #1a1a2e; }
.clue-wrap .subtitle { color: #666; font-size: 0.95em; margin-bottom: 20px; line-height: 1.7; }
.clue-wrap .update-tag { display: inline-block; background: #e8f4fd; color: #1a73e8; padding: 3px 12px; border-radius: 12px; font-size: 0.85em; margin-bottom: 12px; }
.clue-wrap .updates { background: #f8f9fa; padding: 12px 18px; border-radius: 8px; margin-bottom: 30px; font-size: 0.9em; line-height: 1.8; color: #555; border-left: 3px solid #1a73e8; }

.clue-cards { display: flex; gap: 16px; margin-bottom: 30px; flex-wrap: wrap; }
.clue-card { flex: 1; min-width: 200px; background: #fff; border: 1px solid #e8ecef; border-radius: 10px; padding: 20px; box-shadow: 0 1px 4px rgba(0,0,0,0.04); }
.clue-card h3 { font-size: 0.85em; color: #888; margin: 0 0 6px 0; font-weight: 500; text-transform: uppercase; letter-spacing: 0.5px; }
.clue-card .value { font-size: 1.8em; font-weight: 700; color: #1a1a2e; }
.clue-card .desc { font-size: 0.8em; color: #999; margin-top: 4px; }

.bar-chart { margin: 30px 0; }
.bar-chart .bar-item { display: flex; align-items: center; margin-bottom: 8px; }
.bar-chart .bar-label { width: 200px; font-size: 0.85em; text-align: right; padding-right: 12px; color: #444; flex-shrink: 0; }
.bar-chart .bar-track { flex: 1; height: 26px; background: #f0f2f5; border-radius: 4px; overflow: hidden; }
.bar-chart .bar-fill { height: 100%; border-radius: 4px; display: flex; align-items: center; padding-left: 8px; font-size: 0.8em; color: #fff; font-weight: 600; }
.region-overseas .bar-fill { background: linear-gradient(90deg, #4f8cf7, #6ba3ff); }
.region-cn .bar-fill { background: linear-gradient(90deg, #e8574a, #f0706a); }

.clue-table-wrap { overflow-x: auto; margin: 30px 0; border: 1px solid #e8ecef; border-radius: 10px; }
.clue-table { width: 100%; border-collapse: collapse; font-size: 0.82em; min-width: 900px; }
.clue-table th { background: #f8f9fa; padding: 10px 8px; text-align: center; font-weight: 600; color: #555; border-bottom: 2px solid #e0e4e8; font-size: 0.85em; white-space: nowrap; }
.clue-table td { padding: 8px; text-align: center; border-bottom: 1px solid #f0f2f5; }
.clue-table tr:hover { background: #f5f8ff; }
.clue-table .rank-num { display: inline-block; width: 24px; height: 24px; line-height: 24px; border-radius: 50%; background: #e8ecef; color: #666; font-weight: 600; font-size: 0.85em; }
.clue-table .rank-1 { background: #ffd700; color: #8b6914; }
.clue-table .rank-2 { background: #e8e8e8; color: #555; }
.clue-table .rank-3 { background: #e8d0b0; color: #8b5e3c; }
.clue-table .model-name { font-weight: 600; color: #1a1a2e; text-align: left; white-space: nowrap; }
.clue-table .score-high { color: #2e7d32; font-weight: 600; }
.clue-table .org-tag { display: inline-block; padding: 2px 8px; border-radius: 10px; font-size: 0.85em; }
.clue-table .org-tag.overseas { background: #e3f2fd; color: #1565c0; }
.clue-table .org-tag.cn { background: #fbe9e7; color: #bf360c; }
.clue-table .open { color: #2e7d32; } .clue-table .closed { color: #c62828; }
.clue-table .top-row td { background: #fffde7 !important; }

.task-grid { display: grid; grid-template-columns: repeat(auto-fill, minmax(340px, 1fr)); gap: 16px; margin: 24px 0; }
.task-card { border: 1px solid #e8ecef; border-radius: 10px; padding: 18px; background: #fff; }
.task-card h4 { margin: 0 0 12px 0; font-size: 1em; color: #333; }

.data-source { margin-top: 40px; padding: 16px 20px; background: #f8f9fa; border-radius: 8px; font-size: 0.85em; color: #888; line-height: 1.7; }
.data-source a { color: #1a73e8; text-decoration: none; }
.data-source a:hover { text-decoration: underline; }

/* Dark mode overrides */
html.io-black-mode .clue-wrap,
html.io-black-mode .clue-wrap h1,
html.io-black-mode .clue-wrap h2,
html.io-black-mode .clue-wrap h4 { color: #e0e0e0; }
html.io-black-mode .clue-wrap .subtitle,
html.io-black-mode .clue-wrap .desc { color: #999; }
html.io-black-mode .clue-card { background: #2a2a2e; border-color: #3a3a3e; box-shadow: none; }
html.io-black-mode .clue-card .value { color: #e0e0e0; }
html.io-black-mode .clue-wrap .updates { background: #2a2a2e; color: #bbb; border-left-color: #4a8cf7; }
html.io-black-mode .bar-chart .bar-track { background: #333; }
html.io-black-mode .bar-chart .bar-label { color: #bbb; }
html.io-black-mode .clue-table-wrap { border-color: #3a3a3e; }
html.io-black-mode .clue-table th { background: #2a2a2e; color: #bbb; border-bottom-color: #3a3a3e; }
html.io-black-mode .clue-table td { border-bottom-color: #2a2a2e; }
html.io-black-mode .clue-table tr:hover td { background: #333; }
html.io-black-mode .clue-table .model-name { color: #e0e0e0; }
html.io-black-mode .task-card { background: #2a2a2e; border-color: #3a3a3e; }
html.io-black-mode .task-card p { color: #bbb !important; }
html.io-black-mode .task-card h4 { color: #ddd !important; }
html.io-black-mode .data-source { background: #2a2a2e; color: #888; }
html.io-black-mode .clue-wrap .update-tag { background: #1a3a5e; color: #6ab0ff; }
html.io-black-mode .clue-wrap [style*=”background:#f8f9fa”] { background: #2a2a2e !important; color: #bbb !important; }
html.io-black-mode .clue-table .top-row td { background: #3a3a1e !important; }
html.io-black-mode .clue-table .rank-num { background: #444; color: #aaa; }
html.io-black-mode .clue-table .rank-1 { background: #8b7530; color: #ffd700; }
html.io-black-mode .clue-table .rank-2 { background: #555; color: #ccc; }
html.io-black-mode .clue-table .rank-3 { background: #6b4e2c; color: #e8d0b0; }

大模型榜单 · 2026年5月

基于 SuperCLUE 中文通用大模型测评基准,涵盖数学推理、科学推理、代码生成、精确指令遵循、幻觉控制、智能体(任务规划)六大维度,共计 492 道新题,测评 23 个国内外主流大模型。

📢 最近更新:2026年5月29日
• 5月通用榜已更新,本页面同步最新数据
• EmbodiedCLUE-World:具身智能世界模型评测 5月榜单已更新

智能指数

75.73
满分100 · Gemini-3.1-Pro最强

评测模型

23
国内外主流大模型

评测题目

492
2026年5月全新原创题

六维任务

推理+应用能力全覆盖

智能指数排行

■ 海外模型 ■ 国内模型

Gemini-3.1-Pro
75.73
GPT-5.5(high)
74.27
Claude-Opus-4.8
73.93
Claude-Opus-4.7
73.52
Gemini-3.5-Flash
71.51
DeepSeek-V4-Pro
70.48
Qwen3.7-Max
70.22
豆包Seed-2.0-pro
69.96
Kimi-K2.6
68.66
DeepSeek-V4-Flash
67.49

完整榜单(含六项细分得分)

满分100分。海外模型与国内模型分列,国内模型按排名分组。

排名模型名称机构开/闭总分数学科学代码指令幻觉智能体属地日期
🏆 海外第一梯队
Gemini-3.1-Pro-Preview(high)Google75.7382.4671.9381.4756.1987.2375.12海外5.28
GPT-5.5(high)OpenAI74.2782.4663.1672.8853.3387.2686.56海外5.28
Claude-Opus-4.8(high)Anthropic73.9378.9577.1983.5844.7687.4871.63海外5.29
Claude-Opus-4.7(high)Anthropic73.5280.7068.4279.0156.1981.1175.70海外5.28
Gemini-3.5-Flash(high)Google71.5182.4675.4470.6644.7686.1669.60海外5.28
🇨🇳 国内榜单
1DeepSeek-V4-Pro(max)深度求索70.4871.9370.1874.9548.5779.1478.12国内5.28
1Qwen3.7-Max(Thinking)阿里巴巴70.2282.4673.6879.6931.4382.9171.16国内5.28
1豆包Seed-2.0-pro字节跳动69.9677.1975.4467.6343.8179.9275.77国内5.28
2Kimi-K2.6-Thinking月之暗面68.6675.9370.1875.7930.4878.6680.95国内5.28
3DeepSeek-V4-Flash深度求索67.4982.6971.9366.7537.1470.9075.56国内5.28
3Qwen3.6-Max-Preview阿里巴巴67.0466.6768.4266.2132.3885.1483.41国内5.28
4豆包Seed-2.0-lite字节跳动66.1275.4471.9357.5940.0078.8672.92国内5.28
5GLM-5.1智谱AI63.2470.1868.4270.8028.5774.6766.80国内5.28
5文心ERNIE 5.1百度63.1268.4257.8957.5747.6276.8170.44国内5.28
6Qwen3.6-27B(Thinking)阿里巴巴61.9568.4268.4263.4320.9577.1173.39国内5.28
Gemma-4-31BGoogle58.1175.4466.6765.760.9582.9556.87海外5.28
7MiMo-V2.5-Pro小米集团57.3169.6466.6767.5213.3364.5362.16国内5.28
7Step-3.7-Flash阶跃星辰56.4066.6766.6765.3312.3860.1367.24国内5.29
Grok-4.3xAI55.5457.8961.4066.7322.8670.5153.87海外5.28
8Spark X2科大讯飞54.5368.4270.1850.962.8662.9271.83国内5.28
8Step-3.5-Flash阶跃星辰54.3364.9159.6562.8112.3861.2764.99国内5.28
9MiniMax-M2.7稀宇科技52.1464.9145.6161.9622.8657.4160.06国内5.28
10混元Hy3 preview腾讯49.6150.8857.8956.258.5767.6356.43国内5.28

六大维度解读

🧮 数学推理

考察模型运用数学概念和逻辑进行多步推理的能力。包括几何学、代数学、概率论等竞赛级别数据集。

最强:DeepSeek-V4-Flash 82.69 · 国产第一

🔬 科学推理

考察模型在跨学科背景下理解因果关系的能力。包括物理、化学、生物等研究生级别科学数据集。

最强:Claude-Opus-4.8 77.19 · 海外领先

💻 代码生成

覆盖独立函数生成(数据结构、算法)和Web应用生成两种类型。通过单元测试和功能测试评分。

最强:Claude-Opus-4.8 83.58 · 代码之王

🎯 精确指令遵循

考察模型是否严格遵循指定的输出格式和约束条件。包括结构约束、量化约束、语义约束等场景。

最强:Gemini-3.1-Pro 56.19 · 整体偏低

🔍 幻觉控制

考察模型在执行中文生成任务时应对忠实性幻觉的能力。包括文本摘要、阅读理解、多文本问答等。

最强:Claude-Opus-4.8 87.48 · 可信度最高

🤖 智能体

考察模型在复杂任务场景中制定结构化行动方案的能力。包括生活服务、工作协作、学习成长等场景。

最强:GPT-5.5 86.56 · 任务规划王者

榜单要点

海外模型仍全面领先。 Gemini-3.1-Pro、GPT-5.5、Claude-Opus-4.8 占据前三,总分均超 73 分。国内模型尚未突破 71 分大关。

DeepSeek-V4-Pro 位列国产第一。 总分 70.48 与 Qwen3.7-Max(70.22)、豆包Seed-2.0-pro(69.96)组成国产第一梯队,三者差距不到 1 分。

指令遵循是普遍短板。 几乎所有模型在此项得分偏低(大多 20-56 分)。高精度指令遵循仍然是行业难题。

开源模型崛起。 DeepSeek、Qwen、Kimi 的开源版本均进入国内前三,开源策略在大模型竞争中具备强劲生命力。

海外模型总分整体超越国内,但国内模型在某些专项(如 DeepSeek-V4 的数学推理 82.69)上已具备世界级水准。

📊 数据来源:SuperCLUE 中文大模型测评基准 · 2026年5月通用榜单

SuperCLUE 是 CLUE 基准在大模型时代的发展和延续,致力于科学、客观、中立的大模型评测。指南针导航收录的 AI 工具均可在站内搜索查找使用方式。

E

📖 推荐阅读

© 版权声明

相关文章