强力推荐一个超级好用的大模型测评工具

本文介绍了在AI时代背景下,如何通过opencompass(司南)这款开源工具来评估和微调大模型的效果。opencompass提供了全面的能力维度测试,支持多种大模型和API接口,以及分布式评测,便于用户进行模型性能评估。
摘要由CSDN通过智能技术生成

在这个千模大战的AI时代,国内很多大厂都在做自己的基础大模型,比如Qwen、Baichuan、文心一言、星火、盘古等等;对于小玩家或者 个人来说使用大模型的最佳方式就是基于这些基础大模型来做微调。

但是对于微调后的大模型效果怎样呢?有没有好的工具去衡量、去评价判断呢?在这里给大家强力推荐一个非常好用的工具,那就是opencompass,中文名称司南,最近在项目中也刚好在使用它,非常方便好用,而且它是一个开源的大模型测试工具,支持很多常用的大模型,测试数据集也很丰富,可以从语言、知识、推理、考试、理解、长文本、安全、代码等多个维度测试大模型的能力。

官网网址:https://opencompass.org.cn/home

github网址:  https://github.com/open-compass/opencompass

opencompass是一款面向大模型评测的一站式平台,特点如下:

  • 开源:大家都可以方便地使用,而且可以根据自身需要做一些定制开发。

  • 全面的能力维度:五大维度设计,提供 70+ 个数据集约 40万题的模型评测方案,全面评估模型能力。

  • 丰富的模型支持:已支持 20+ HuggingFace ,同时还支持 模型的API方式。

  • 分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测。

  • 灵活扩展:可以新增自定义模型和数据集

数据集支

大模型及API支持

除了支持开源大模型本地支持测试,同时还支持已经部署好的大模型的API接口测试。

 开源大模型API模型
InternLMOpenAI
LLaMAGemini
LLaMA3Claude
VicunaZhipuAI(ChatGLM)
AlpacaBaichuan
BaichuanByteDance(YunQue)
WizardLMHuawei(PanGu)
ChatGLM2360
ChatGLM3Baidu(ERNIEBot)
TigerBotMiniMax(ABAB-Chat)
QwenSenseTime(nova)
Qwen1.5Xunfei(Spark)
BlueLM
Gemma

安装使用

具体使用可以参考官方文档或者github。

官方文档 https://opencompass.org.cn/doc

更多最新文章,请关注公众号:大白爱爬山

大白爱爬山
关注 关注
  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
开源AI大模型测评网站
u012842807的专栏
05-10 1084
多个 AI 模型的排行榜和详细的性能评估,包括总排行榜、基础能力排行榜、安全类模型排行榜、金融领域应用排行榜、汽车领域应用排行榜以及工业领域应用排行榜。CLUE中文语言理解基准测评
AI大模型测试案例:八大中文AI大模型超级评测
09-20
AI大模型测试案例:八大中文AI大模型超级评测
一定要看看的大模型评测基准】及【评测报告】
weixin_44077556的博客
10-31 1万+
针对于复杂任务,每个模型都要多次测试其对指示模版的适应程度。
模型系列:OpenCompass(司南)大模型测评工具介绍和实践
2401_85377976的博客
07-17 1841
OpenCompass,也称为“司南”,是由上海人工智能实验室发布的一个开源的大模型评测体系,已经成为目前权威的大型模型评估平台,本篇介绍如何使用OpenCompass进行大模型测评,以及其中涉及的相关知识。OpenCompass概述介绍OpenCompass下载安装OpenCompass快速开始ppl、gen两种测评方式区别简述OpenCompass的Prompt构建数据集、测评指标、模型推理的配置测评结果可视化。
模型常用评测基准汇总全网最全版,内含CSDN独家福利!
大模型学习路线
07-23 698
基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。
opencompass大模型评测
mnwl12_0的博客
04-29 272
#
OpenCompass:大模型测评工具
AI相关从业分享
06-24 783
OpenCompass,也称为“司南”,是由上海人工智能实验室发布的一个开源的大模型评测体系,已经成为目前权威的大型模型评估平台。作为一站式的大模型评估平台,它不仅量化了模型在知识、语言、理解、推理等方面的能力,还推动了模型的迭代和优化。其主要特点包括:对模型和数据集支持丰富:支持20+HuggingFace和API模型,70+数据集的模型评估方案,约40万个问题,从五个维度全面评估模型的能力分布式高效评测:提供了分布式评测方案,支持了本机或集群上的计算任务并行分发,实现评测并行式的提速。
大型视觉语言模型评估工具包——VLMEvalKit介绍与应用探秘
最新发布
gitblog_01172的博客
08-26 236
大型视觉语言模型评估工具包——VLMEvalKit介绍与应用探秘 VLMEvalKitOpen-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks项目地址:https://gitcod...
模型评测概述-以司南为例
qq_43814415的博客
04-28 1259
本文以司南评估工具为例,介绍了大模型评测这一内容。大模型评测和以往的nlp模型评测的不同在于要考虑非常多的维度,根源在于大模型的多维能力。传统nlp模型只需要针对文本分类、ner等某个具体任务,但是大模型具有文本对话、角色扮演、文本分类等传统nlp有和没有的能力。因此,司南将其分为通用能力和特色能力两个部分,再分层划分各个子维度的能力。再回顾下开发大模型的生命周期:模型基座(base),增量预训练,sft,奖励学习,人类偏好学习。目前大多还是只走到了sft。
运用机器学习(含深度学习)方法处理数据问题的完备流程总结+实践经验细节+代码工具书(4):神经网络机器学习模型的搭建与训练阶段
weixin_44563688的博客
03-31 3394
本篇为工具书(4),使用经过数据处理阶段处理过的数据,进行神经网络机器学习模型的搭建及训练阶段的相关流程(代码基于python3): 什么是好的机器学习模型/如何得到好的模型+数据分析阶段:https://blog.csdn.net/weixin_44563688/article/details/86535274 前置数据处理阶段: https://blog.csdn.net/weixin_445...
超级全面的Java面试题集及参考答案
zhaohuodian的博客
08-30 462
不可变对象指对象一旦被创建,状态就不能再改变。任何修改都会创建一个新的对象,如 String、Integer及其它包装类。公共静态不可变(public static final )变量也就是我们所说的编译期常量,这里的 public 可选的。实际上这些变量在编译时会被替换掉,因为编译器知道这些变量的值,并且知道这些变量在运行时不能改变。这种方式存在的一个问题是你使用了一个内部的或第三方库中的公有编译时常量,但是这个值后面被其他人改变了,但是你的客户端仍然在使用老的值,甚至你已经部署了一个新的jar。...
slurm资源监控_使用SLURM优化超级计算机中的资源管理
cuxiong8996的博客
07-04 3012
与蒂姆联系 蒂姆是我们最受欢迎和最多产的作家之一。 在developerWorks上浏览Tim的所有文章 。 查看Tim的个人资料,并与他,其他作者以及developerWorks社区中的其他开发人员联系 。 超级计算机是军备竞赛的经典例子。 当现代超级计算机的性能不断提高扩展到新的问题领域时,这些庞大的系统为解决新问题提供了平台。 随着公司和国家努力提高LINPACK分数,超级计...
模糊测试--强制性安全漏洞发掘
热门推荐
软件性能测试专栏
01-20 2万+
文档分享地址链接:http://pan.baidu.com/share/link?shareid=2723797392&uk=2485812037 密码:r43x 前 言 我知道"人类和鱼类能够和平共处" 。 --George W. Bush, 2000年9月29日 简介 模糊测试的概念至少已经流传了20年,但是直到最近才引起广泛的关注。安全漏洞困扰了许多流行的客户端应用程序
xinetd超级守护进程的使用
yonggeit的博客
05-11 5478
xinetd(eXtended InterNET services daemon) 一、xinetd的功能介绍: xinetd提供类似于inetd+tcp_wrapper的功能,但是更加强大和安全。它能提供以下特色: * 支持对tcp、udp、RPC服务(但是当前对RPC的支持不够稳定) * 基于时间段的访问控制 * 功能完备的log功能,即可以记录连接成功也可以记录连接失败的行为 *...
探秘Doccano:开源的文本标注和模型评估工具
gitblog_00098的博客
03-20 454
探秘Doccano:开源的文本标注和模型评估工具 项目地址:https://gitcode.com/chakki-works/doccano Doccano 是一个强大的开源项目,专为自然语言处理(NLP)社区设计,用于文本标注、模型训练及评估。该项目由日本的Chakki Works开发并维护,旨在提供一个易用、可扩展且功能丰富的平台,帮助研究者和开发者加速AI和机器学习项目中的数据预处理工作。 ...
探索更智能的文本评估工具:ChatEval
gitblog_00064的博客
06-07 291
探索更智能的文本评估工具:ChatEval ChatEval项目地址:https://gitcode.com/gh_mirrors/ch/ChatEval ChatEval是一个创新的开源项目,旨在通过多代理辩论的方式优化大型语言模型(LLMs)的评估过程。利用LLMs自身的智能,ChatEval能够自主地比较和判断不同文本的质量,无需人工介入。这一自动化的过程不仅提高了效率,还增加了评估的透明...
模型评测平台OpenCompass
yanqianglifei的专栏
07-21 2028
OpenCompass 是面向大模型评测的一站式平台。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能灵活化拓展:想增加新模型或数据集?
第七节课《OpenCompass司南--大模型评测实战》
fanre的专栏
05-06 982
评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能。OpenCompass 默认并行启动评估过程。--debug 模式启动评估,并检查是否存在问题。自定义任意模型和数据集,多模型和数据集进行切分,做到并行化(多GPU或任务),多种输出方式。做提示词工程,丰富题目,给模型做推理,然后做评测评测结果更加真实反映模型性能。列出所有跟 InternLM 及 C-Eval 相关的配置。
车机测试好用的bat工具推荐一下
07-15
当涉及到测试车机时,可以使用以下几个BAT工具: 1. Monkey:Monkey是Android操作系统自带的一个压力测试工具,可以模拟用户在设备上的随机操作,例如点击、滑动、按键等。这个工具非常适合测试车机的性能和稳定性。 2. UI Automator:这是一个由Google提供的一个UI测试框架,可以自动化测试Android设备上的应用程序。使用它可以模拟用户在车机上的各种操作,例如点击、滑动、输入等。 3. Appium:这是一个跨平台的自动化测试工具,可以用来测试不同的移动设备,包括Android车机。它支持各种编程语言,并且可以与各种测试框架集成。 4. Selendroid:这是一个Android自动化测试工具,它可以模拟用户在车机上的各种操作,并且可以通过UI界面进行测试。它的功能类似于UI Automator,但它可以用于不同版本的Android系统。 以上这些BAT工具都可以用于测试车机,具体使用哪一个取决于你的需求和技能水平。
写文章

热门文章

  • ldap服务器搭建——ldap_bind: Invalid credentials (49)错误解决 31097
  • jsp中获取界面元素的几个方法 11854
  • html之复选杜框(checkbox)、单选按钮(radio)、下拉菜单(select-option) 11310
  • JAVA——Class对象的三种生成方式 7880
  • 关于List的一个小问题——remove()函数 7735

分类专栏

  • LangChain 14篇
  • TCP/IP详解 卷2 12篇
  • flutter 1篇
  • 计算机网络 12篇
  • python 3篇
  • JAVA 12篇
  • Linux 10篇
  • 设计模式 5篇
  • 算法 3篇
  • web框架 1篇
  • 数据库 2篇
  • web前台 3篇
  • c++ 1篇
  • ldap 2篇
  • go 1篇

最新评论

  • 强力推荐一个超级好用的大模型测评工具

    Jonathan Star: 大模型的评测工具,给出csv,有这些列,评测他的回答是否合理,给出评分 问题 、 标准回答、 回答、 回答的依赖文档 open-compass是把模型什么的都作为参数,如果是自己的模型那么模型的参数、配置之类也要写配置代码,感觉好麻烦,直接根据一个csv评测有这种工具吗。

  • centos7 gitlab漏洞

    Small_Operation: 请问解决了吗,同样遇到了

  • centos7 gitlab漏洞

    岩丨冰: 这个确定是漏洞吗

  • centos7 gitlab漏洞

    lpgqq: 关键是过段时间自动又启动了

  • centos7 gitlab漏洞

    r1ghrfhd: 确定了啥漏洞没 我看了下日志没有被攻击行为 对网络上的漏洞也进行了验证 不存在 杀掉之后该进程就没有在起来过 不像挖矿阿

最新文章

  • 【LangChain系列 15】语言模型——LLMs(一)
  • 【LangChain系列 14】语言模型概述
  • 【LangChain系列 13】样例选择器
2024年5篇
2023年11篇
2022年2篇
2018年13篇
2016年2篇
2015年8篇
2014年29篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家安宁玻璃钢雕塑产品厂家特别推荐威海玻璃钢仿真水果雕塑河南常用商场美陈销售厂家广东制作玻璃钢雕塑厂家商丘镜面玻璃钢卡通雕塑玻璃钢大型茶壶雕塑价格常州玻璃钢马雕塑设计玻璃钢庭院雕塑玻璃钢花盆长时间浸水山西玻璃钢消防员雕塑广西玻璃钢雕塑设计及定制德惠玻璃钢景观雕塑唐山景观玻璃钢鹿雕塑价格天津市津南区玻璃钢雕塑厂深圳玻璃钢雕塑定做厂家宣城玻璃钢雕塑出售山西玻璃钢雕塑凳子曲靖市玻璃钢雕塑收费福州玻璃钢农耕雕塑仙桃玻璃钢雕塑考拉厂家玻璃钢牛梨田雕塑厂家商场大型玩偶美陈卡通玻璃钢雕塑代理商三门峡卡通玻璃钢雕塑布朗熊异形玻璃钢雕塑价格陕西玻璃钢雕塑订做价格东营玻璃钢人物雕塑定制价格八爪鱼玻璃钢雕塑商场黄金活动美陈吉林玻璃钢雕塑采购香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化