大模型榜单 · 2026年5月 — SuperCLUE中文大模型评测
.clue-wrap { max-width: 1100px; margin: 0 auto; font-family: -apple-system, BlinkMacSystemFont, ‘Segoe UI’, Roboto, sans-serif; color: #333; }
.clue-wrap h1 { font-size: 1.8em; font-weight: 700; margin-bottom: 8px; color: #1a1a2e; }
.clue-wrap .subtitle { color: #666; font-size: 0.95em; margin-bottom: 20px; line-height: 1.7; }
.clue-wrap .update-tag { display: inline-block; background: #e8f4fd; color: #1a73e8; padding: 3px 12px; border-radius: 12px; font-size: 0.85em; margin-bottom: 12px; }
.clue-wrap .updates { background: #f8f9fa; padding: 12px 18px; border-radius: 8px; margin-bottom: 30px; font-size: 0.9em; line-height: 1.8; color: #555; border-left: 3px solid #1a73e8; }
.clue-cards { display: flex; gap: 16px; margin-bottom: 30px; flex-wrap: wrap; }
.clue-card { flex: 1; min-width: 200px; background: #fff; border: 1px solid #e8ecef; border-radius: 10px; padding: 20px; box-shadow: 0 1px 4px rgba(0,0,0,0.04); }
.clue-card h3 { font-size: 0.85em; color: #888; margin: 0 0 6px 0; font-weight: 500; text-transform: uppercase; letter-spacing: 0.5px; }
.clue-card .value { font-size: 1.8em; font-weight: 700; color: #1a1a2e; }
.clue-card .desc { font-size: 0.8em; color: #999; margin-top: 4px; }
.bar-chart { margin: 30px 0; }
.bar-chart .bar-item { display: flex; align-items: center; margin-bottom: 8px; }
.bar-chart .bar-label { width: 200px; font-size: 0.85em; text-align: right; padding-right: 12px; color: #444; flex-shrink: 0; }
.bar-chart .bar-track { flex: 1; height: 26px; background: #f0f2f5; border-radius: 4px; overflow: hidden; }
.bar-chart .bar-fill { height: 100%; border-radius: 4px; display: flex; align-items: center; padding-left: 8px; font-size: 0.8em; color: #fff; font-weight: 600; }
.region-overseas .bar-fill { background: linear-gradient(90deg, #4f8cf7, #6ba3ff); }
.region-cn .bar-fill { background: linear-gradient(90deg, #e8574a, #f0706a); }
.clue-table-wrap { overflow-x: auto; margin: 30px 0; border: 1px solid #e8ecef; border-radius: 10px; }
.clue-table { width: 100%; border-collapse: collapse; font-size: 0.82em; min-width: 900px; }
.clue-table th { background: #f8f9fa; padding: 10px 8px; text-align: center; font-weight: 600; color: #555; border-bottom: 2px solid #e0e4e8; font-size: 0.85em; white-space: nowrap; }
.clue-table td { padding: 8px; text-align: center; border-bottom: 1px solid #f0f2f5; }
.clue-table tr:hover { background: #f5f8ff; }
.clue-table .rank-num { display: inline-block; width: 24px; height: 24px; line-height: 24px; border-radius: 50%; background: #e8ecef; color: #666; font-weight: 600; font-size: 0.85em; }
.clue-table .rank-1 { background: #ffd700; color: #8b6914; }
.clue-table .rank-2 { background: #e8e8e8; color: #555; }
.clue-table .rank-3 { background: #e8d0b0; color: #8b5e3c; }
.clue-table .model-name { font-weight: 600; color: #1a1a2e; text-align: left; white-space: nowrap; }
.clue-table .score-high { color: #2e7d32; font-weight: 600; }
.clue-table .org-tag { display: inline-block; padding: 2px 8px; border-radius: 10px; font-size: 0.85em; }
.clue-table .org-tag.overseas { background: #e3f2fd; color: #1565c0; }
.clue-table .org-tag.cn { background: #fbe9e7; color: #bf360c; }
.clue-table .open { color: #2e7d32; } .clue-table .closed { color: #c62828; }
.clue-table .top-row td { background: #fffde7 !important; }
.task-grid { display: grid; grid-template-columns: repeat(auto-fill, minmax(340px, 1fr)); gap: 16px; margin: 24px 0; }
.task-card { border: 1px solid #e8ecef; border-radius: 10px; padding: 18px; background: #fff; }
.task-card h4 { margin: 0 0 12px 0; font-size: 1em; color: #333; }
.data-source { margin-top: 40px; padding: 16px 20px; background: #f8f9fa; border-radius: 8px; font-size: 0.85em; color: #888; line-height: 1.7; }
.data-source a { color: #1a73e8; text-decoration: none; }
.data-source a:hover { text-decoration: underline; }
/* Dark mode overrides */
html.io-black-mode .clue-wrap,
html.io-black-mode .clue-wrap h1,
html.io-black-mode .clue-wrap h2,
html.io-black-mode .clue-wrap h4 { color: #e0e0e0; }
html.io-black-mode .clue-wrap .subtitle,
html.io-black-mode .clue-wrap .desc { color: #999; }
html.io-black-mode .clue-card { background: #2a2a2e; border-color: #3a3a3e; box-shadow: none; }
html.io-black-mode .clue-card .value { color: #e0e0e0; }
html.io-black-mode .clue-wrap .updates { background: #2a2a2e; color: #bbb; border-left-color: #4a8cf7; }
html.io-black-mode .bar-chart .bar-track { background: #333; }
html.io-black-mode .bar-chart .bar-label { color: #bbb; }
html.io-black-mode .clue-table-wrap { border-color: #3a3a3e; }
html.io-black-mode .clue-table th { background: #2a2a2e; color: #bbb; border-bottom-color: #3a3a3e; }
html.io-black-mode .clue-table td { border-bottom-color: #2a2a2e; }
html.io-black-mode .clue-table tr:hover td { background: #333; }
html.io-black-mode .clue-table .model-name { color: #e0e0e0; }
html.io-black-mode .task-card { background: #2a2a2e; border-color: #3a3a3e; }
html.io-black-mode .task-card p { color: #bbb !important; }
html.io-black-mode .task-card h4 { color: #ddd !important; }
html.io-black-mode .data-source { background: #2a2a2e; color: #888; }
html.io-black-mode .clue-wrap .update-tag { background: #1a3a5e; color: #6ab0ff; }
html.io-black-mode .clue-wrap [style*=”background:#f8f9fa”] { background: #2a2a2e !important; color: #bbb !important; }
html.io-black-mode .clue-table .top-row td { background: #3a3a1e !important; }
html.io-black-mode .clue-table .rank-num { background: #444; color: #aaa; }
html.io-black-mode .clue-table .rank-1 { background: #8b7530; color: #ffd700; }
html.io-black-mode .clue-table .rank-2 { background: #555; color: #ccc; }
html.io-black-mode .clue-table .rank-3 { background: #6b4e2c; color: #e8d0b0; }
大模型榜单 · 2026年5月
基于 SuperCLUE 中文通用大模型测评基准,涵盖数学推理、科学推理、代码生成、精确指令遵循、幻觉控制、智能体(任务规划)六大维度,共计 492 道新题,测评 23 个国内外主流大模型。
• EmbodiedCLUE-World:具身智能世界模型评测 5月榜单已更新
智能指数
评测模型
评测题目
六维任务
智能指数排行
■ 海外模型 ■ 国内模型
完整榜单(含六项细分得分)
满分100分。海外模型与国内模型分列,国内模型按排名分组。
| 排名 | 模型名称 | 机构 | 开/闭 | 总分 | 数学 | 科学 | 代码 | 指令 | 幻觉 | 智能体 | 属地 | 日期 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 🏆 海外第一梯队 | ||||||||||||
| — | Gemini-3.1-Pro-Preview(high) | 闭 | 75.73 | 82.46 | 71.93 | 81.47 | 56.19 | 87.23 | 75.12 | 海外 | 5.28 | |
| — | GPT-5.5(high) | OpenAI | 闭 | 74.27 | 82.46 | 63.16 | 72.88 | 53.33 | 87.26 | 86.56 | 海外 | 5.28 |
| — | Claude-Opus-4.8(high) | Anthropic | 闭 | 73.93 | 78.95 | 77.19 | 83.58 | 44.76 | 87.48 | 71.63 | 海外 | 5.29 |
| — | Claude-Opus-4.7(high) | Anthropic | 闭 | 73.52 | 80.70 | 68.42 | 79.01 | 56.19 | 81.11 | 75.70 | 海外 | 5.28 |
| — | Gemini-3.5-Flash(high) | 闭 | 71.51 | 82.46 | 75.44 | 70.66 | 44.76 | 86.16 | 69.60 | 海外 | 5.28 | |
| 🇨🇳 国内榜单 | ||||||||||||
| 1 | DeepSeek-V4-Pro(max) | 深度求索 | 开 | 70.48 | 71.93 | 70.18 | 74.95 | 48.57 | 79.14 | 78.12 | 国内 | 5.28 |
| 1 | Qwen3.7-Max(Thinking) | 阿里巴巴 | 闭 | 70.22 | 82.46 | 73.68 | 79.69 | 31.43 | 82.91 | 71.16 | 国内 | 5.28 |
| 1 | 豆包Seed-2.0-pro | 字节跳动 | 闭 | 69.96 | 77.19 | 75.44 | 67.63 | 43.81 | 79.92 | 75.77 | 国内 | 5.28 |
| 2 | Kimi-K2.6-Thinking | 月之暗面 | 开 | 68.66 | 75.93 | 70.18 | 75.79 | 30.48 | 78.66 | 80.95 | 国内 | 5.28 |
| 3 | DeepSeek-V4-Flash | 深度求索 | 开 | 67.49 | 82.69 | 71.93 | 66.75 | 37.14 | 70.90 | 75.56 | 国内 | 5.28 |
| 3 | Qwen3.6-Max-Preview | 阿里巴巴 | 闭 | 67.04 | 66.67 | 68.42 | 66.21 | 32.38 | 85.14 | 83.41 | 国内 | 5.28 |
| 4 | 豆包Seed-2.0-lite | 字节跳动 | 闭 | 66.12 | 75.44 | 71.93 | 57.59 | 40.00 | 78.86 | 72.92 | 国内 | 5.28 |
| 5 | GLM-5.1 | 智谱AI | 开 | 63.24 | 70.18 | 68.42 | 70.80 | 28.57 | 74.67 | 66.80 | 国内 | 5.28 |
| 5 | 文心ERNIE 5.1 | 百度 | 闭 | 63.12 | 68.42 | 57.89 | 57.57 | 47.62 | 76.81 | 70.44 | 国内 | 5.28 |
| 6 | Qwen3.6-27B(Thinking) | 阿里巴巴 | 开 | 61.95 | 68.42 | 68.42 | 63.43 | 20.95 | 77.11 | 73.39 | 国内 | 5.28 |
| — | Gemma-4-31B | 开 | 58.11 | 75.44 | 66.67 | 65.76 | 0.95 | 82.95 | 56.87 | 海外 | 5.28 | |
| 7 | MiMo-V2.5-Pro | 小米集团 | 开 | 57.31 | 69.64 | 66.67 | 67.52 | 13.33 | 64.53 | 62.16 | 国内 | 5.28 |
| 7 | Step-3.7-Flash | 阶跃星辰 | 开 | 56.40 | 66.67 | 66.67 | 65.33 | 12.38 | 60.13 | 67.24 | 国内 | 5.29 |
| — | Grok-4.3 | xAI | 闭 | 55.54 | 57.89 | 61.40 | 66.73 | 22.86 | 70.51 | 53.87 | 海外 | 5.28 |
| 8 | Spark X2 | 科大讯飞 | 闭 | 54.53 | 68.42 | 70.18 | 50.96 | 2.86 | 62.92 | 71.83 | 国内 | 5.28 |
| 8 | Step-3.5-Flash | 阶跃星辰 | 开 | 54.33 | 64.91 | 59.65 | 62.81 | 12.38 | 61.27 | 64.99 | 国内 | 5.28 |
| 9 | MiniMax-M2.7 | 稀宇科技 | 开 | 52.14 | 64.91 | 45.61 | 61.96 | 22.86 | 57.41 | 60.06 | 国内 | 5.28 |
| 10 | 混元Hy3 preview | 腾讯 | 开 | 49.61 | 50.88 | 57.89 | 56.25 | 8.57 | 67.63 | 56.43 | 国内 | 5.28 |
六大维度解读
🧮 数学推理
考察模型运用数学概念和逻辑进行多步推理的能力。包括几何学、代数学、概率论等竞赛级别数据集。
最强:DeepSeek-V4-Flash 82.69 · 国产第一
🔬 科学推理
考察模型在跨学科背景下理解因果关系的能力。包括物理、化学、生物等研究生级别科学数据集。
最强:Claude-Opus-4.8 77.19 · 海外领先
💻 代码生成
覆盖独立函数生成(数据结构、算法)和Web应用生成两种类型。通过单元测试和功能测试评分。
最强:Claude-Opus-4.8 83.58 · 代码之王
🎯 精确指令遵循
考察模型是否严格遵循指定的输出格式和约束条件。包括结构约束、量化约束、语义约束等场景。
最强:Gemini-3.1-Pro 56.19 · 整体偏低
🔍 幻觉控制
考察模型在执行中文生成任务时应对忠实性幻觉的能力。包括文本摘要、阅读理解、多文本问答等。
最强:Claude-Opus-4.8 87.48 · 可信度最高
🤖 智能体
考察模型在复杂任务场景中制定结构化行动方案的能力。包括生活服务、工作协作、学习成长等场景。
最强:GPT-5.5 86.56 · 任务规划王者
榜单要点
• 海外模型仍全面领先。 Gemini-3.1-Pro、GPT-5.5、Claude-Opus-4.8 占据前三,总分均超 73 分。国内模型尚未突破 71 分大关。
• DeepSeek-V4-Pro 位列国产第一。 总分 70.48 与 Qwen3.7-Max(70.22)、豆包Seed-2.0-pro(69.96)组成国产第一梯队,三者差距不到 1 分。
• 指令遵循是普遍短板。 几乎所有模型在此项得分偏低(大多 20-56 分)。高精度指令遵循仍然是行业难题。
• 开源模型崛起。 DeepSeek、Qwen、Kimi 的开源版本均进入国内前三,开源策略在大模型竞争中具备强劲生命力。
• 海外模型总分整体超越国内,但国内模型在某些专项(如 DeepSeek-V4 的数学推理 82.69)上已具备世界级水准。
📊 数据来源:SuperCLUE 中文大模型测评基准 · 2026年5月通用榜单
SuperCLUE 是 CLUE 基准在大模型时代的发展和延续,致力于科学、客观、中立的大模型评测。指南针导航收录的 AI 工具均可在站内搜索查找使用方式。
E