Happy_LLM_12 你问我什么是好的LLM?那我们就来测一测啊
目录
Task12:第七章 大模型应用
7.1 LLM的测评 (仅供参考,愿 LLM 越来越好❤)
什么是好的LLM?
os:这个问题就有问题,没有绝对的好,其实就是在某个场景能用好,就是好。但是这个比较主观, 所以,我们仍然需要一些客观评测来横向对比各家LLM。
LLM评测概要
what 评测?
就是用一些大家标准化的方法或者数据去测LLM,看他在不同任务的表现,能够量化的。

why 评测?
- 模型太多,先客观判断LLM的适应性和可靠性
- 暴露LLM潜在确定,如偏见、鲁棒性等,便于优化
- 标准化,对业界比较公平,技术交流
LLM的评测数据集

查查LLM模型PK榜单
主流的【通用类】评测榜单
- Open LLM Leaderboard【拥抱脸小哥的,有性能结果得分】
- Lmsys Chatbot Arena Leaderboard【真人来评估】
- OpenCompass【国内模型的评测】
【特定领域】榜单
-
金融💴榜:基于
CFBenchmark评测集- 评估LLM在金融语言名词、金融预测计算、金融分析与安全检查等多项基础任务中的能力
- 同济大学、上海AI Lab、东方财经的
-
安全🛡️榜:基于
Flames评测集- 评估LLM在公平、安全、数据保护以及合法五大维度的抗性,在安全性上的表现
- 上海AI Lab、复旦大学的
-
通识🤌🏻榜:基于
BotChat评测集- 评估LLM生成日常多轮对话能力的综合程度,判断模型在对话中是否具备类人水平
- 上海AI Lab的
-
法律⚖️榜:基于
LawBench评测集- 评估LLM在法律领域的理解、推理和应用能力,涵盖法律问题回答、文本生成、法律判例分析等任务
- 南京大学的
-
医疗👩🏻⚕️榜:基于
MedBench评测集- 评估LLM在医学知识问答、安全伦理理解等方面的表现
- 上海AI Lab的