Happy_LLM_12 你问我什么是好的LLM？那我们就来测一测啊

2025-09-09 约 673 字预计阅读 2 分钟

Task12：第七章大模型应用

7.1 LLM的测评（仅供参考，愿 LLM 越来越好❤）

os：这个问题就有问题，没有绝对的好，其实就是在某个场景能用好，就是好。但是这个比较主观，所以，我们仍然需要一些客观评测来横向对比各家LLM。

就是用一些大家标准化的方法或者数据去测LLM，看他在不同任务的表现，能够量化的。

金融💴榜：基于CFBenchmark评测集
- 评估LLM在金融语言名词、金融预测计算、金融分析与安全检查等多项基础任务中的能力
- 同济大学、上海AI Lab、东方财经的
安全🛡️榜：基于Flames评测集
- 评估LLM在公平、安全、数据保护以及合法五大维度的抗性，在安全性上的表现
- 上海AI Lab、复旦大学的
通识🤌🏻榜：基于BotChat评测集
- 评估LLM生成日常多轮对话能力的综合程度，判断模型在对话中是否具备类人水平
- 上海AI Lab的
法律⚖️榜：基于LawBench评测集
- 评估LLM在法律领域的理解、推理和应用能力，涵盖法律问题回答、文本生成、法律判例分析等任务
- 南京大学的
医疗👩🏻‍⚕️榜：基于MedBench评测集
- 评估LLM在医学知识问答、安全伦理理解等方面的表现
- 上海AI Lab的