论文翻译：一篇关于大模型研究进度和理论基础的综述

*声明：本翻译仅为个人观看方便所用，无意向任何人提供盗版资料，也无意侵犯任何人的权利。若版权方认为侵权，请联系我，我会将侵权部分删除。

*本文使用ChatGPT翻译。

原文标题：A Survey of Research Progress and Theory Foundation in Large Model

Dong Xiaofei¹, Zhang Xueqiang², Zhang Dan², Cao Feng¹，Bai Bingfeng²

¹China Academy of Information and Communications Technology, Institute of Cloud Computing and Big Data, Beijing, 100191, China;
²Nanjing Research Institute of Next-generation Artificial Intelligence, AI Standardization Service Department, Nanjing, Jiangsu 210046, China

摘要：近年来，随着人工智能的关键要素和核心技术的迅速发展，大规模预训练模型（大模型）取得了显著效果。随着大模型具体实践的推进，实现人工智能的普适性和通用性，并响应构建强大模型框架的战略目标具有实用意义。从理论角度出发，本文探讨了大模型在内在子空间、有效模型复杂度和低秩分解理论中的支持点。我们讨论了模型发展的研究发现、意义和局限性，并为未来趋势提出了相关建议。

1 引言

随着预训练模型的演进，学习和表示机制逐渐明晰。人们能够将需要学习的知识注入到大规模预训练模型（大模型）中。大模型正趋向于在不同数据集上训练单一模型，然后将该模型应用于各种相关的下游任务。大规模方法的深入增强使得模型能够自我监督，并减少对传统样本的比较学习的依赖。不可避免地，数据依赖性的减少提高了大模型的过程适应性，从而使模型能够完成不同类型的情况，进一步降低了应用成本。

由于人工智能面临着多样化的商业场景，表现出碎片化和多样化的特征。从参数调整、迭代到使用，很难满足所有市场定制需求。在这方面，大模型通过在下游任务上进行微调，从大量标记和未标记数据中捕获知识，提供了一种可行的解决方案，这些数据可以通过存储在大量参数中并针对特定任务进行微调来扩展。大模型的有效性原因已经得到许多方面的证明，但核心网络架构的缺乏创新和参数激增导致了技术发展中的多个瓶颈。

目前，大模型技术向多语言、多模态和知识融合等方向扩展。大模型具有学习数据和参数规模的特征，面向不同任务，挖掘领域数据，并与领先企业或机构合作。通过结合大模型的通用性，本文认为关键是引入行业特定知识，设计相应的预训练任务。第2节展示了文献综述。第3节探讨了大模型在内在子空间、有效模型复杂度和低秩分解理论中的支持点。第4节和第5节讨论了模型发展的研究发现、意义和局限性，并提出了未来趋势的相关建议。

2 文献综述

预训练技术激活了深度神经网络对大规模未标记数据的自监督学习能力，凭借多机计算能力和海量未标记文本数据的双重支持，大模型已经实现了深度学习模式。大模型规模和性能的情况已经成为人工智能领域的一次革命性突破。尽管参数规模呈指数增长，但在大模型发展过程中仍存在一些挑战，包括应用领域、技术方面和社会影响等方面的能力。在大模型的新一轮商业化中，该行业努力改变人工智能在多模态分析领域的技术方式。通过综合相关文献，大模型的支持理论呈现在图1中。

表格 I 提供了所审阅论文的相关特征：自监督预训练、不确定性数据集、多模态条件和限制激励。大模型中的“控制”使用，以及与开发过程阶段相关的结构被展示出来。S 结构表示单一模型产生内部或外部的新原材料。D 结构表示有两个可能的新原材料来源，通常一个是内部的，一个是外部的。M 结构表示有两个以上的原材料来源。表格的最后一行将我们的研究范围定位在这些特征内。正如表 I 所示，现有工作在某种程度上解决了相同类型的结构问题。这项研究在建模激励方面采用了与现有工作有着关键区别的方法，基于连续函数，列出了除了由人工智能过程导致的原材料之外的多个原材料来源。

在扩展重要技术的基础上，大模型整合了知识图谱、多模态和多行业需求，以增强模型的丰富性。大模型专注于开发模型优化和框架算法，以提高整体计算效率。大模型的实施应用于人力密集但标准数据较少的行业和场景。但是，大模型的安全性和可信度仍然需要引起关注，特别是应建立其评估体系。大模型的管理可以向生态建设、构建业务阵线和创建综合资源平台等方面加强。

3 理论基础

3.1 内在子空间（Intrinsic Subspace）

特征子空间是各种下游任务的高度抽象的低维参数子空间，具有少量自由参数以适应不同条件。大模型作为通用框架，可以将各种下游任务的学习复杂度从高维度压缩到低维度扩展。内在子空间调整的工作原理如下所述：通过学习矩阵

z_j \in \mathbb{R}^{n\times d}

的分解来找到合适的低维特征任务子空间t_j。

z=S_c(x;\theta_{s_c}) \qquad \qquad (1)

t^j=S_{t_j}(x;\theta_{s_{t_j}}) \qquad \qquad (2)

\hat{y}_S^j=H_j(z,t^j,\theta_{h_j})\qquad \qquad (3)

Ն_{sf}^{(j)}=Ն^{(j)}_{sup}+\alpha_{kt}Ն_{kt}^{(j)}\qquad\qquad (4)

在大型模型规则处理器的流程中，结构因子分解将网络分割成一组具有不同功能的原子网络。如图2所示，每个原子网络包括一个共享的公共网络和一个任务特定的网络。它提取任务无关的表示来捕获任务之间的共性，同时负责提取任务特定的信息。

给定一个输入，大模型分别提取任务无关和任务相关的特征。除了监督任务损失外，大模型使用转移损失来确保原子网络的预测与原始网络一致。通过这种方式，大模型将多任务网络转换为可处理的形式。如何使这个预训练模型学习到通用表示，并使模型适应不同的下游任务，是当前处理领域的重要研究方向。对于本文，发现通过优化低维内在任务子空间中的少量自由参数，可以重新参数化预训练模型，使得预训练模型能够适应不同的任务。内在子空间有助于解释为什么预训练模型能够通过少量数据适应不同任务的模式。

为了找到这样一个子空间并发现其普遍性，大型模型任务的软提示被分解成相同的低维非线性子空间，然后对子空间进行一些微调。这些参数使得预训练模型适应未见过的数据，表明内在任务子空间具有泛化性，而内在提示微调则提高了提示微调的稳定性。

大型模型架构中的内在子空间方法最大化了输入和公共特征之间的互信息，以鼓励信息的无损传递。与此同时，内在子空间理论的信息最大瓶颈最小化了分配之间的互信息，确保算法特征仅用于预测特定的结果。具体来说，现有研究已经推导出一个变分下界，使得深度网络能够直接优化特征之间的互信息。大型模型中的每个输入样本都计算其公共特征和任务特定表示，以尽可能保留输入的信息，同时最小化内在子空间，以便专业化表示仅保留与任务相关的信息。

3.2 有效模型复杂度（Effective Model Complexity）

模型复杂度一直是机器学习、数据挖掘和深度学习等领域中的一个重要基本问题。模型的复杂度影响了其在特定问题上的可学习性以及在未见数据上的泛化能力，这不仅受到模型架构本身的影响，还受到数据分布、数据复杂度和信息量的影响。模型复杂度已成为一个越来越活跃的方向，在模型搜索、图表示、泛化研究和模型压缩等领域至关重要。大型模型的有效模型复杂度（EMC）可以解释为工程落地的表达能力。

现有研究发现了 EMC 的四个重要因素：模型框架、模型大小、优化过程和数据复杂度。其应用从模型泛化、优化策略到模型选择和设计。不同框架的大型模型可能需要相应的复杂度度量来衡量模型大小，包括参数数量、隐藏层数量、隐藏层宽度、滤波器数量和滤波器大小。在相同的大型模型框架下，不同大小的复杂度可以通过可比较的标准来量化。此外，优化过程影响大型模型的复杂度，包括目标函数的形式、学习算法的选择和超参数的设置。特别是，主要影响因素包括数据维度、数据类型和数据类型分布，以及用于数据复杂度的信息量。

如图3所示，实验结果提供了对于有效模型复杂度远小于n的数据的情况。当结构化数据用于风险控制评分模型时，随着模型复杂度的增加，训练误差趋近于零，而测试误差呈现出一个U形曲线——首先下降然后上升。对于有效模型复杂度远大于n的数据，例如用于场景分割的图像，应使用由大型模型表示的过参数化模型——平滑插值来使得训练误差接近于零。遵循双峰曲线的训练误差和测试误差，因此，随着复杂度的增加，大型或小型模型的测试误差差异显著。

3.3 低秩分解优化（Low Rank Decomposition）

大型模型数据集是由研究机构通过汇总和重新组织几个单一数据集而用于一般评估的。大型模型的性能已经迅速提高，并迅速超越了一些基准集，这对于实际评估的标准、数据集和基准测试提出了更高的要求。如图4所示，低秩分解是指通过合并维度并施加低秩约束来稀疏化卷积核矩阵。由于大部分权重向量分布在低秩子空间中，可以使用少量基向量来重构卷积核矩阵，以达到减少存储空间的目的。手动操作和传统模型往往难以在多变的业务场景中平衡准确性和时间表，低秩分解优化嵌入大型模型通常部署在现有系统上，这方便用户调用大型模型的功能。

例如，自然语言处理（NLP）和计算机视觉（CV）是大型模型的两个热门领域，案例占比超过70%，但它们大多偏向于感知层。这反映了大型模型发展的门槛，以及低秩分解的效率溢出到人力密集型领域。低秩分解优化对提高多模态语义模型的表达准确性是有用的，在方法创新方面，它被认为是大型模型计算的基础，适用于不同的产品需求。互联网和电信行业对大型模型的使用开始密集地利用秩分解的方式。

4 讨论

4.1 研究发现

文献表明，大型模型的性能受到理论构建的分配影响。大型模型在大量数据上进行预训练，然后在少量行业数据上学习，以满足特定的业务场景。与其他创新方法的有机结合可能降低大型模型的训练成本，并提高应用产品的实际产出。实现多数据的更高泛化、更大的计算能力和更强的大型模型算法是必要的，但是庞大的参数规模和计算负载将带来训练和部署的困难等问题。

传统模型通常针对特定场景进行训练，但泛化能力较差，而且手工车间风格依赖于手动参数调整。相比之下，大型模型需要用户更多的硬件计算资源。利用大量未标记数据在大型模型中，通过微调或增量学习在实际情况下完成任务。根据表II中的观点，大型模型的庞大参数规模在训练过程中带来了巨大的计算负担，这对并行计算软件系统提出了更高的需求。

4.2 限制因素

随着大型模型的增长，计算和存储成本的消耗自然增加。当大型模型被训练时，如果模型过大，推理过程会变慢。调整参数并适应下游任务是一件复杂的事情。对于某些情况，大型模型并不是一种经济有效的选择。为了部署到特定设备，通常需要模型压缩，这会导致性能显著下降。具体而言，随着规模的增加，大型模型的性能不断显现，但仍存在一些挑战，例如路线不清晰和常识不足。本文认为，统一的基础结合模型系统的技术路线可能会实现分层解决方案。例如，一个统一的学习范式OFA，不引入新的结构，它使用Transformer（编码器-解码器）架构进行统一的预训练和微调，在不同任务中不添加任何特定的模型层。因此，在预训练后，在下游任务中，单一模型直接处理尽可能多的跨模态任务，而无需添加新的结构。

4.3 限制因素

面对大型模型的形成机制，本文提出的三个理论是相关基础，展示了独立性和潜在的指导方向。建议大型模型的泛化能力与人工智能理论相关。在人工智能的大规模生产阶段，大型模型的兴起进一步增强了人工智能的多功能性。大型模型具有研发过程的泛化和标准化特征，成为人工智能技术和应用的新基础。在这个过程中，需要探索更高效的模型结构，提高机器智能的上限。目前大型模型存在常识和世界知识缺乏的痛点。有必要探索如何结合知识图谱等新的知识存储方法，丰富模型能力。模型训练和使用中多模态信息的融合仍待开发，进一步追踪在下游任务中文本、图像、语音、视频等模态在统一语义空间中的融合。建立全面可靠的评估系统，发现大型模型的弱点并促进其稳定特性是下一步的重点。

简而言之，大型模型的出现开启了人工智能研究的新时代，其成果正在通过为许多领域的研究问题设计特定算法来实现。具体来说，新范式预训练微调的最基本特征是统一的框架和统一的模型。考虑到预训练的更统一的架构正在出现，其典型的算法框架包括卷积神经网络（CNN）、循环神经网络（RNN）、门控和注意力。在2017年Transformer问世后，各种框架被统一框架所取代。这一统一框架通过预训练机制带来了统一模型，因此可以对一个大量的下游任务进行统一模型的微调。大型模型的架构有望成为弱人工智能和强人工智能之间的桥梁，特别是对于感知人工智能的推进。

5 结论

大型模型的发展应该分阶段进行。在未来，大型模型将整合常识，并带来逻辑推理能力。在当前阶段，大型模型只在计算层面上发展超越深度学习领域。应该以一种包容的心态推进，并积极探索大型模型能力的边界。此外，预计会挖掘除Transformer之外的新结构，以丰富“大”这一概念的定义。因此，如何规范大型模型的研究和应用是一个需要进一步考虑的重要课题。当大型模型真正成为人工智能的基础设施时，它将不仅扩大场景覆盖的广度，还将深化数据技术的产业深度。