广告位

森林云服务器如何度量大模型“天赋”?信容指标揭开参数量之外的模型真本领

频道: 日期: 浏览:0

云6服务器

大模型有天赋吗?

低价云服务器租用

中国电信人工智能研究院(TeleAI)科研团队在 5 个开源异构数据集上对近 50 个主流开源大模型测试了文本无损编码压缩增益,并统计实验中模型推理的计算开销。

测试结果

结果显示, 不同系列模型要实现同等文本无损编码压缩增益,所需计算开销有明显差异。而 同一系列模型,尽管尺寸各异,但文本无损编码压缩增益与计算开销的比值(即大模型的信容 ,图中表示为 Information Capacity)往往保持高度一致。

信容是信息与模型参数量的比值,表示模型内存储的知识密度。 如果把模型比作海绵,信息比作水,那么信容就如同海绵的吸水效率,水吸得越多、越快,说明模型越聪明。信容 为比较不同架构和参数大模型的推理效率提供了量化依据,可用于高效评估不同预训练数据、模型架构和超参数的优劣。

在中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的指导下,TeleAI 团队以 智传网(AI Flow) 理论框架为基础,通过信容评估指标为大模型的效率进行标准化度量。该指标基于压缩即智能的深刻洞察,结合压缩性能与推理复杂度来定量评估模型效率,不仅能揭示模型在单位计算代价下产出的智能密度,还能在复杂的通算融合网络中为算与传的资源最优配置提供理论依据。

基于信容 评估指标,通过对同源小尺寸模型的测试,就能预测大尺寸模型的性能表现,从而加速模型的开发和迭代。在 智传网(AI Flow) 的应用中,信容可以支撑和指导端-边-云分层异构算力间的协同调度,实现更精准的模型选型与算力分配。

相关论文:

Cheng Yuan, Jiawei Shao, Chi Zhang, Xuelong Li, "Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression", arXiv:2511.08066.

信容

解构大模型效率的智能标尺

智传网(AI Flow) 集结了人工智能(智)、通信(传)、网络(网)三项关键技术,让 智能可以在端---网之间高效流动 ,并具备自适应性,实现尖端 AI 在网络边缘泛在可用。而在当前大模型生态中,不同系列、不同参数量的模型如同形状和规格各异的容器,缺乏统一指标来评价其承载智能的效率。

信容评估 指标不再单纯依赖众多下游测试基准和静态参数量统计,而是从信息论的角度出发,通过评估模型对文本的压缩能力来量化其智能水平,并用推理开销进行归一化处理。其核心创新主要体现在以下三个方面。

第一,构建基于压缩与智能关联的统一评估框架。

前 OpenAI 首席科学家 Ilya Sutskever 曾 对 大模型压缩能力与智能水平的关系发表 过 演说 观点。他表达,压缩与预测之间存在对应关系,而智能的核心能力之一就是精准预测。通常, 更大的模型能更准确地预测下一个词元( token ),实现更高压缩率,但这也伴随着更高的计算成本。

信容 则 巧妙地捕捉了这两者之间的权衡关系,用模型的文本压缩增益(代表智能水平)与其浮点运算数量(代表推理复杂度)之比来度量大模型 的效率。这一指标打破了以往仅靠参数量大小论英雄的局限,使得不同架构(如密集与混合专家模型、传统注意力与线性注意力)的模型能够在同一框架下进行公平的效率比较。

信容指标表达式

第二,首次将分词器效率纳入考量模型能力的体系。

在以往的评估中,分词器的影响往往被忽略。然而,分词器直接决定了输入和输出相同文本所需的词元数量,影响端到端推理开销。此外,近来流行的智能体应用需要分析超长上下文并产生大量中间结果,词元的数量也会影响模型记忆和提取输入信息的能力。

国内真正的云服务器

信容指标在度量模型智能和复杂度时均考虑了分词器效率,能够更真实地反映模型在处理实际文本时的综合效率。这意味着,一个拥有高效分词器的模型,即便参数稍大,也可能在实际应用中展现出更高的信容和更低的推理时延。

信容与分词器效率具有显著相关性

第三,发现同系列不同尺寸模型间的效率恒定律

通过对主流开源模型的广泛评测, TeleAI 科研团队发现了一个有趣现象: 同一系列的模型,尽管尺寸各异,其信容往往保持高度一致 。这一发现让模型架构和参数量均不同的模型能用信容这一指标进行公平比较,使不同模型的优劣评估变得简单高效。

同时,在成本高昂的预训练过程中, 还 能通过在小尺寸模型上进行快速测试,准确预测大尺寸模型的性能表现,加速模型的开发和迭代。在 智传网(AI Flow) 的 端 - 边 - 云 节点部署中,可以根据信容来快速预测不同尺寸模型的智能能力,从而在跨层异构设备之间实现更精准的模型选型与算力分配。

不同尺寸模型性能预测

TeleAI 科研团队在 5 个异构数据集上近 50 个主流开源大模型进行了详尽评测,全面验证了信容指标的有效性与鲁棒性。

实验结果表明,该指标能准确反映模型在不同语言环境下的真实效能,展现出模型对不同类型语料的偏见。这一结果与此前研究的观察相一致,表明在某一语料上测得的压缩能力,能准确反映在与之分布近似的下游任务上的性能表现 。

主流开源模型在不同类型的

文本上测得的信容排行榜

此外,实验结果还揭示了预训练数据的规模和质量,以及混合专家( MoE )等架构创新对模型效率的深远影响,为大模型预训练提供了有效的指导。

MoE 模型比密集模型效率更高

稀疏比越小,测得的信容越高

随着大模型推理负载消耗越来越多的计算资源和能源, 如何准确评估大模型的推理效率吸引了学界越来越多的关注。为了填补这一空白, TeleAI 通过 信容指标让跨架构和尺寸的大模型效率评估成为可能,并能有效指导模型的预训练和高效部署。

这项工作不仅为大模型的绿色低碳发展提供了定量的标尺,也为未来通算融合网络的设计指明了方向。随着边缘智能的快速发展, 端 - 边 - 云 分层网络将在不远的未来取代传统的以云上服务器为中心的计算范式。

代码

数据集:

排行榜:

阿里的云服务器

关键词: