Scorecard | 指南针导航

Scorecard 是给做 LLM 应用开发的团队用的。AI 模型输出的不确定性和不可控是生产环境的痛点——同样的输入可能每次输出不一样。Scorecard 帮你建立评估体系：定义质量标准（准确性、安全性、格式合规），自动测试每次模型更新或提示词调整是否达标。适合在做 AI 产品、需要保障输出质量的开发团队。

数据统计

相关导航

ZenMux

企业级大语言模型平台，统一API和智能路由消除幻觉风险

扣子空间

AI智能体开发平台，整合插件记忆工作流等能力快速构建商业价值智能体

Auto-GPT

开源AI自主代理框架。

Qwen2

Qwen2是一款专注于AI模型下载...

华为盘古大模型

华为盘古大模型官网,入口网址,盘古ai为各行各业进行赋能什么是华为盘古大模型?盘古NLP大模型基于多任务、大模型、少样本技术的AI共建方案盘古大模型是业内首个千亿参数的中文大模型，拥有1100亿密集参数，经过40TB的海量数据训练而成。同时也通过多任务prompt等技术延伸出10亿参数、性能更好

Qwen2

Qwen2官网,通义千问开源超闭源！Qwen2发布即爆火Qwen2是什么？Qwen2是阿里云通义千问团队开源的新一代大语言模型，推出了5个尺寸的预训练和指令微调模型，在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；代码和数学能力显著提升；增大了上下文长度支持，最高达到 128K