挖掘有趣 Github 的猫。


有事联系:https://t.me/qumao?direct
🍭 #AI评测 #机器学习工程


🏵 MLE-bench - AI代理ML工程基准

🍥 简介:
MLE-bench 是专为评估 AI 代理在机器学习工程任务中表现而设计的公开基准工具。它基于真实 Kaggle 竞赛数据集,支持多种任务类型(如图像、文本、表格、音频等),可自动化数据准备、分割、评分和结果统计,便于全面衡量不同智能体在模型开发、数据处理和自动化工程流程上的能力。系统提供标准评测流程、轻量级测试集、自动化评分脚本及丰富的实验配置,适合研究人员、开发者或团队对比和优化 AI 代理在实际 ML 工程场景下的综合能力。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
 
 
Back to Top