返回列表
大模型评测体系综述
2024.10.10

一、引言

       近年来,随着人工智能技术的飞速发展,大模型(Large Language Models, LLMs)逐渐成为推动该领域进步的重要力量。大模型以其庞大的参数规模、强大的泛化能力和灵活的适应性,在自然语言处理、图像识别和生成、医疗诊断等多个领域取得了显著成果,甚至让人们看到了实现通用人工智能(AGI)的曙光。然而,随着大模型的广泛应用和影响力的不断增加,如何准确、客观、全面地衡量其能力,成为学术界、产业界和应用实践者们共同关注的重要问题。本文旨在基于当前国内外主流的大模型评测体系,对评测维度、数据集、评测方法和工具以及量化打分方法进行综述,为构建更加完善的大模型评测体系提供参考。

二、评测动力与需求

      大模型评测的动力主要来源于以下几个方面:

    (1)技术创新推动:大模型的开发和测试是推动人工智能技术创新的重要手段。通过测试可以发现模型的优势和局限性,从而推动进一步的技术突破和模型优化。

    (2)实际应用验证:通过测试大模型,可以验证其在实际应用中的效果,挖掘模型在不同行业场景中的潜力和适用性。

    (3)安全性与合规评估:大模型测试有助于评估模型的安全性和是否合规,包括如何处理偏见、不适当的内容生成以及对敏感信息的保护等。这对于确保模型在实际使用中不对用户造成潜在危害或侵犯隐私权利非常重要。

    (4)用户体验提升:通过大规模的测试,可以更好地理解用户交互的需求和模式,优化用户体验,使模型更自然、更符合人类的沟通方式,提高模型的易用性和可接受性。

三、评测维度与框架

3.1 评测维度

      大模型的评测维度多种多样,涵盖了从基础能力到高级智能的各个方面。以下是几种典型的评测维度:

  1.        文本理解:包括文本分类、命名实体识别、信息抽取、文本问答、长文本理解和上下文理解等,用于评估模型对自然语言的理解和分析能力。
  2.        文本生成:评估模型生成自然、准确、流畅文本的能力,包括摘要生成、文本改写、作文生成等。
  3.        知识掌握:测试模型在特定领域或跨领域的知识储备和应用能力,如学科知识问答、常识推理等。
  4.        逻辑推理:评估模型在逻辑推理、数学计算等方面的能力,如数值计算能力、算法面试题解答等。
  5.        多模态能力:针对多模态大模型,评测其在视觉问答、视觉推理、视觉生成、图文一致性等方面的能力。
  6.        智能性与鲁棒性:评估模型的智能化水平,包括指令跟随能力、思维链能力、鲁棒性和可靠性等。

3.2 评测体系分析

       为了全面评估大模型的能力,评测体系通常采用多维度的框架,如“能力-任务-指标”三维评测框架。该框架通过刻画模型在不同能力维度上的表现,结合具体任务场景和评估指标,形成全面的评测结果。

3.2.1国内评测体系

     (1)智源评测

  1.        评测维度:构建了“能力-任务-指标”三维评测框架,涵盖简单理解、知识运用、推理能力、数学能力、代码能力、任务解决和安全与价值观七个能力维度。
  2.        评测数据集:包含超8万道考题,4000+原创未公开主观题,涉及大语言模型、视觉语言大模型、文生图模型和文生视频模型等多个类型。
  3.        评测方法与工具:采用主观评测和客观评测相结合的方式,主观评测依据参考答案对生成内容进行判断,客观评测则通过概率选择和自由生成等方法进行评估。

    (2)电子标准院

  1.       评测维度:基于国家标准《人工智能 预训练模型 第2部分:评测指标与方法(征求意见稿)》,分为单模态理解、单模态生成、多模态理解、多模态生成四大类,涵盖文本、图像、音频等多个子类的评测维度。
  2.       评测方法与工具:依托新一代人工智能标准与应用工业和信息化部重点实验室,孵化大模型测试基准LMBench,并配套研发了标准化测评工具,支持零样本、小样本、思维链等多种测评方式。
  3.       量化打分及评测等级:依据加权平均后的综合实力进行等级评估,从基础级到领航级分为五个等级。

    (3)信通院“方升”评测

  •        评测维度:由“三横一纵”组成,即行业能力测试、应用能力、通用能力和安全能力。具体评测能力包括理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力等。
  •        评测数据集:评测题目从包含300多万条评测数据库中定向抽取构建,覆盖通用、行业、应用、安全四个一级测试维度。
  •        评测方法与工具:分为模块测试和抽样测试,采用自研的测评工具和数据管理方法,支持零样本、小样本、思维链等多种测评方式。

    (4)OpenCompass评测

       OpenCompass是由上海AI实验室推出的开源、高效、全面的评测大模型体系及开放平台,参考其7月榜单,评测维度包括语言、推理、知识、代码、数学、指令跟随和智能体七个维度。

  •        评测数据集:包含闭源中英文数据集,主观评测有2000余条高质量中英文双语问题,客观评测有15000余条问题。
  •        评测方法:固定答案的维度使用自动化评测,开放性问题使用基于LLM的主观评测。
  •        量化打分:各测试维度的权重比例不同,推理、代码和数学能力占比最大。

     (5)SuperCLUE评测

       SuperCLUE评测体系分为通用基准、专项基准和行业基准三类,涵盖多个模态的评测任务。

  •        评测维度:包括模型基础能力、进阶能力和垂类能力。
  •        评测数据集:共2194题,包含多种任务类型,如长文本/逻辑推理、代码生成等。
  •        评测方法:题目由背景信息和问题组成,评估结果包括裁判的参考答案、改进意见和打分说明。
  •        量化打分:根据各维度的分数计算平均值,使用归一化处理,满分为100分。
3.2.2 国际评测体系

     (1) HELM(Stanford)

       HELM是斯坦福大学的一个项目,旨在提供对语言模型的全面评估,覆盖准确性、鲁棒性、公平性和可解释性等多个维度。HELM评测体系包含多个子评测,如HELM Lite、HELM Classic、HEIM、HELM Instruct、HELM MMLU和VHELM等,每个子评测都针对语言模型的不同方面进行评估。

  •        评测维度:HELM评测体系涵盖了语言模型的多个方面,包括语言理解、逻辑推理、数学能力、多语言能力、常识推理等。
  •        数据集:HELM评测体系使用了多个核心数据集,如NarrativeQA、NaturalQuestions、MMLU、MATH等,这些数据集涵盖了不同的任务和领域,能够全面评估语言模型的能力。
  •        评测方法:HELM评测体系采用自动化评测方法,通过计算模型在数据集上的表现来评估其能力。同时,HELM还提供了详细的评测报告和可视化工具,帮助用户更好地理解模型的表现。

     (2)Chatbot Arena(UC Berkeley)

       Chatbot Arena是一个开放平台,采用成对比较模型输出的方法,通过众包方式收集用户投票,实现高效和准确的模型评估排名。Chatbot Arena评测体系注重模型的实际应用效果,通过模拟真实场景中的对话任务来评估模型的能力。

  •        评测维度:Chatbot Arena评测体系主要关注模型在对话任务中的表现,包括对话流畅性、自然度、理解能力、回复质量等方面。
  •        数据集:Chatbot Arena评测体系使用真实场景中的对话数据,这些数据涵盖了不同的领域和话题,能够全面评估模型在对话任务中的能力。
  •        评测方法:Chatbot Arena评测体系采用众包方式收集用户投票,通过比较不同模型在同一对话任务中的表现来评估其能力。这种方法能够更真实地反映模型在实际应用中的效果。

      (3) Open LLM LeaderBoard(HuggingFace)

        Open LLM LeaderBoard是HuggingFace推出的一个开源的大模型评测平台,旨在提供全面、公正、可复现的大模型评测结果。Open LLM LeaderBoard评测体系涵盖了多个基准测试,如AI2 Reasoning Challenge、HellaSwag、MMLU和TruthfulQA等。

  •        评测维度:Open LLM LeaderBoard评测体系涵盖了语言模型的多个方面,包括语言理解、逻辑推理、知识、数学、代码等。同时,该平台还关注模型的公平性、可解释性等方面。
  •        数据集:Open LLM LeaderBoard评测体系使用了多个公开的数据集,这些数据集涵盖了不同的任务和领域,能够全面评估语言模型的能力。此外,该平台还鼓励用户上传自己的数据集进行评测。
  •        评测方法:Open LLM LeaderBoard评测体系采用自动化评测方法,通过计算模型在数据集上的表现来评估其能力。同时,该平台还提供了详细的评测报告和可视化工具,帮助用户更好地理解模型的表现。此外,Open LLM LeaderBoard还支持模型之间的对比和排名,方便用户选择最优模型。

四、评测体系对比分析

    (1) 评测维度与指标 各评测体系在评测维度上有所差异,但总体趋势趋于统一,主要涵盖文本理解、文本生成、文本推理、知识、数学、代码等多个方面。同时,一些评测体系还增加了特色维度,如长文本能力、思维链能力、多语言能力等。

    (2)评测数据集 评测数据集的质量和数量是评测体系的重要组成部分。不同评测体系的数据集来源和构成有所不同,但普遍注重数据集的多样性和代表性。通过自建数据集、合作获取数据集等方式,确保评测结果的全面性和准确性。

    (3) 评测方法与工具 评测方法主要分为自动化评测和人工评测两种方式。自动化评测基于计算机算法和自动生成的指标,能够快速评估模型性能;人工评测依赖人类专家的主观判断,提供更深入的分析和反馈。评测工具则支持多种测评方式,如模块测试、抽样测试等,提高评测效率和准确性。

    (4)量化打分与等级评估 量化打分是评测体系中的重要环节,通过计算各维度的分数并进行加权平均,得出模型的综合得分。等级评估则根据得分将模型划分为不同等级,如基础级、进阶级、卓越级等,便于用户比较和选择。

五、总结与展望

       通过对国内外典型评测体系的综合分析可以看出,当前大模型评测体系在评测维度、数据集、评测方法和量化打分等方面已取得显著进展。未来评测体系的发展将更加注重全面性、客观性和公正性,通过增加上下文理解、指令遵循等特色维度,提高数据集的数量和质量,优化评测方法和工具,推动大模型技术的不断创新和优化。 同时,评测体系还需要加强与行业应用的结合,针对不同领域的需求制定专门的评测标准和方法,提高评测结果在实际应用中的参考价值。此外,随着技术的不断发展,评测体系还需要不断更新和完善,以适应新的评测需求和技术挑战。 通过科学、全面、客观的大模型评测体系,可以更好地了解大模型的能力和局限性,推动技术创新和模型优化,为人工智能技术的可持续发展提供有力支持。