大模型部署验证与推理参数调试平台
正在请求模型...
复用"单次对话"标签页的连接配置
将依次运行以下5组预设配置:
当前维度: -
实时得分: 计算中...
正确: - / 总计: -
每维度50题,总计400题
预计时间: 15分钟 (并发10)
CMMLU/MMLU各500题,其他维度100-300题
总计2,200题
预计时间: 1.5小时 (并发10)
全部题目,总计25,000+题
预计时间: 15小时 (并发10)
维度进度: -
预估得分: 计算中...