目录

Happy_LLM_12 你问我什么是好的LLM?那我们就来测一测啊

Task12:第七章 大模型应用

7.1 LLM的测评 (仅供参考,愿 LLM 越来越好❤)


什么是好的LLM?

os:这个问题就有问题,没有绝对的好,其实就是在某个场景能用好,就是好。但是这个比较主观, 所以,我们仍然需要一些客观评测来横向对比各家LLM。


LLM评测概要

what 评测?

就是用一些大家标准化的方法或者数据去测LLM,看他在不同任务的表现,能够量化的。 https://i-blog.csdnimg.cn/direct/7b5a289ee4314323833ff009676d54cd.png

why 评测?

  • 模型太多,先客观判断LLM的适应性和可靠性
  • 暴露LLM潜在确定,如偏见、鲁棒性等,便于优化
  • 标准化,对业界比较公平,技术交流

LLM的评测数据集

https://i-blog.csdnimg.cn/direct/0b4506d051984874a9908f5f20bdc605.png


查查LLM模型PK榜单

主流的【通用类】评测榜单

  • Open LLM Leaderboard【拥抱脸小哥的,有性能结果得分】
  • Lmsys Chatbot Arena Leaderboard【真人来评估】
  • OpenCompass【国内模型的评测】

【特定领域】榜单

  • 金融💴榜:基于CFBenchmark评测集

    • 评估LLM在金融语言名词、金融预测计算、金融分析与安全检查等多项基础任务中的能力
    • 同济大学、上海AI Lab、东方财经的
  • 安全🛡️榜:基于Flames评测集

    • 评估LLM在公平、安全、数据保护以及合法五大维度的抗性,在安全性上的表现
    • 上海AI Lab、复旦大学的
  • 通识🤌🏻榜:基于BotChat评测集

    • 评估LLM生成日常多轮对话能力的综合程度,判断模型在对话中是否具备类人水平
    • 上海AI Lab的
  • 法律⚖️榜:基于LawBench评测集

    • 评估LLM在法律领域的理解、推理和应用能力,涵盖法律问题回答、文本生成、法律判例分析等任务
    • 南京大学的
  • 医疗👩🏻‍⚕️榜:基于MedBench评测集

    • 评估LLM在医学知识问答、安全伦理理解等方面的表现
    • 上海AI Lab的