人工智能大模型系列国家标准解读

返回列表

人工智能大模型系列国家标准解读

2024.10.10

随着人工智能技术的快速发展，AI已成为推动社会进步和产业升级的重要力量。大模型作为AI技术的核心之一，凭借其强大的数据分析和处理能力，在各个行业领域展现出巨大的应用潜力，成为推动产业变革的关键引擎。

为了规范大模型技术的发展和应用和产业健康发展，由中国电子技术标准化研究院牵头，国家人工智能标准化总体组大模型专题组在全国信标委人工智能分委会组织下于2023年中陆续开展人工智能大模型系列标准的研制工作，2023年12月完成标准化技术文件并在此基础上开始研制大模型系列国家标准。

2024年6月，全国信息技术标准化技术委员会发布《人工智能预训练模型（征求意见稿）》，面向全社会公开征求标准意见。后续根据征求意见修改标准名称为《人工智能大模型》系列标准，目前该系列标准正在技术审查中。

表1 《人工智能大模型》系列标准

《人工智能大模型第1部分：通用要求》标准详细规定了人工智能大模型在功能视角下的参考架构、通用技术要求以及相关方活动，是大模型系列标准的基础。制定参考架构的目的是为了明确围绕大模型整个生态系统下各功能组件及其技术要素，进而规范其技术要求。功能视角下的大模型参考架构如图1所示，包括资源池、工具、数据资源、模型、行业应用和服务平台。资源池包括计算、存储、网络等硬件资源及资源虚拟化及调度等软件资源；工具包括数据工具、模型工具；数据资源包括通用数据、领域数据和私有数据；模型包括基础大模型和定制化大模型。其中定制化大模型是依据用户需求对基础大模型进行微调后定制生产环境所需的垂类行业大模型；行业应用是为各行业场景用户提供大模型下游任务匹配服务；服务平台/组件贯穿各层次提供支持大模型和相关服务的编排、部署、模型推理、运维和管理。标准中强调大模型支持单模态或多模态训练，这预示着未来大模型将更加注重跨模态融合能力，能够同时处理文本、图像、语音等多种数据类型，提高模型的泛化性和实用性。

图1 功能视角下的大模型参考架构

另外该标准还定义了用户视角下的大模型相关方及其活动内容，包括基础设施提供者、数据提供者、模型提供者、应用服务者、应用消费者和管理者，为围绕大模型提供服务和管理活动提供了参考依据。大模型的发展不仅仅是技术本身的突破，更需要整个产业链上下游生态的协同合作。从基础设施提供者到应用消费者，各个环节的紧密配合和高效协同将推动大模型的快速发展和广泛应用。

图2 大模型的相关方及其活动

《人工智能大模型第2部分：评测指标与方法》主要针对人工智能大模型的评测体系进行了规范，包括评测维度、评测指标及对应的评测方法。基础评测维度包括单模态理解、单模态生成、多模态理解、多模态生成四大类。其中，单模态文本理解能力评测涵盖了文本分类、信息抽取、推理能力、任务分解、知识问答、代码理解等多个方面，确保模型具备全面的语义理解和信息处理能力。单模态理解能力还包括了图像、音频分类和识别等能力维度。多模态图文理解能力评测涵盖了图文检索、视频图像问答、视觉语言推理、视觉蕴含、图表推理等方面，旨在评估模型对图文信息进行综合理解和推理的能力，从而推动多模态人工智能技术在智能办公、智能营销、自动驾驶等领域的应用。同时，单模态文本生成能力评测包括摘要总结、机器翻译、文本改写、代码生成等多个维度。多模态生成能力包括了文生图、文生视频、视频或图片生成文本描述、语音合成等多个维度。大模型多模态生成能力的评测可以有效评估模型融合文本、图像、视频等多种模态信息的能力，从而推动多模态人工智能技术在教育娱乐、创意设计、虚拟现实、人机交互等领域的应用。

《人工智能大模型第3部分：服务能力成熟度评估》主要为大模型服务的评估提供框架和指导。标准首先定义了大模型服务的三种类型，包括软硬件平台服务、开发定制服务和推理运营服务，并阐述了其服务能力框架，包括软硬件平台能力域、模型开发定制能力域和模型推理及运营域。每个能力域下又细分为多个能力子域，如硬件能力、软件及工具链能力、模型设计、模型训练、模型推理等。标准将大模型服务能力成熟度划分为三个等级：基础应用级、协同优化级和深度赋能级。每个等级都对应着不同的能力要求，从基础的技术要求到复杂的服务能力，再到深度赋能的能力，逐步提升。标准还规定了评估指标和方法，包括软硬件平台、模型开发定制和模型推理运营三个方面的具体要求，并对每个能力子域的技术要求进行了详细描述。通过这份标准，用户可以全面评估大模型服务的各项能力，并根据评估结果选择适合自身需求的服务。同时，标准也为大模型服务提供商提供了能力建设的参考和指导，帮助他们提升服务能力和成熟度等级。

《人工智能大模型第1部分：通用要求》、《人工智能大模型第2部分：评测指标与方法》、《人工智能大模型第3部分：服务能力成熟度评估》这三个标准共同构建了大模型的标准化体系，统一规范了大模型的技术要求，为人工智能行业有效开展大模型及其相关应用的测试验证，有效评估大模型性能水平提供了重要支撑，也为大模型实际落地应用奠定了坚实的基础。

上一条【大模型评测体系综述】

下一条【上海市市场监督管理局人工智能地标委调研会议顺利召开】