🍭 #AI评测 #机器学习工程🏵 MLE-bench - AI代理ML工程基准
🍥 简介:
MLE-bench 是专为评估 AI 代理在机器学习工程任务中表现而设计的公开基准工具。它基于真实 Kaggle 竞赛数据集,支持多种任务类型(如图像、文本、表格、音频等),可自动化数据准备、分割、评分和结果统计,便于全面衡量不同智能体在模型开发、数据处理和自动化工程流程上的能力。系统提供标准评测流程、轻量级测试集、自动化评分脚本及丰富的实验配置,适合研究人员、开发者或团队对比和优化 AI 代理在实际 ML 工程场景下的综合能力。
🎈 【进入项目】🗣 羊毛撸货线报 |
合作/投稿