# Happy_LLM_12 你问我什么是好的LLM？那我们就来测一测啊


<!--more-->

# Task12：第七章 大模型应用
7.1 LLM的测评
（仅供参考，愿 LLM 越来越好❤）

---

## 什么是好的LLM？
os：这个问题就有问题，没有绝对的好，其实就是在某个场景能用好，就是好。但是这个比较主观，
所以，我们仍然需要一些客观评测来横向对比各家LLM。

---
## LLM评测概要
### what 评测？
就是用一些大家标准化的方法或者数据去测LLM，看他在不同任务的表现，能够量化的。
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7b5a289ee4314323833ff009676d54cd.png)
### why 评测？
- 模型太多，先客观判断LLM的适应性和可靠性
- 暴露LLM潜在确定，如偏见、鲁棒性等，便于优化
- 标准化，对业界比较公平，技术交流
---
## LLM的评测数据集

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0b4506d051984874a9908f5f20bdc605.png)


----
## 查查LLM模型PK榜单
### 主流的【通用类】评测榜单
- Open LLM Leaderboard【拥抱脸小哥的，有性能结果得分】
- Lmsys Chatbot Arena Leaderboard【真人来评估】
- OpenCompass【国内模型的评测】


### 【特定领域】榜单
- 金融💴榜：基于`CFBenchmark评测集`
   - 评估LLM在**金融**语言名词、金融预测计算、金融分析与安全检查等多项基础任务中的能力
   - 同济大学、上海AI Lab、东方财经的

- 安全🛡️榜：基于`Flames评测集`
  - 评估LLM在公平、安全、数据保护以及合法五大维度的抗性，在**安全性**上的表现
  - 上海AI Lab、复旦大学的

- 通识🤌🏻榜：基于`BotChat评测集`
  - 评估LLM生成日常多轮对话能力的综合程度，判断模型在对话中是否具备**类人水平**
  - 上海AI Lab的

- 法律⚖️榜：基于`LawBench评测集`
  - 评估LLM在法律领域的理解、推理和应用能力，涵盖**法律问题回答**、文本生成、法律**判例分析**等任务
  - 南京大学的

- 医疗👩🏻‍⚕️榜：基于`MedBench评测集`
  - 评估LLM在**医学知识问答**、安全伦理理解等方面的表现
  - 上海AI Lab的