构建和测试LLM应用的AI工具,确保AI应用提供可预测的稳定体验
Scorecard 是给做 LLM 应用开发的团队用的。AI 模型输出的不确定性和不可控是生产环境的痛点——同样的输入可能每次输出不一样。Scorecard 帮你建立评估体系:定义质量标准(准确性、安全性、格式合规),自动测试每次模型更新或提示词调整是否达标。适合在做 AI 产品、需要保障输出质量的开发团队。
哩布哩布ai AI模型平台
字节跳动开源的代码LLM系列,自主管理训练数据提升编程能力
DeepSpeed,微软开发的开源深度学习优化库,大规模模型分布式训练的工具
Evidently ai,分析和监控机器学习模型的开源python包
创新AI辅助编程工具,本地代码库高效完成编程任务,支持多种LLM
palm2,Google的下一代大语言模型,3.6万亿token,3400亿参数