2024年 8月 2日
AI
2024年 3月 1日
论文翻译:PaLM: 使用Pathways扩大语言模型(1)
已经证明,大型语言模型在各种自然语言任务中利用少样本学习取得了显著的性能,这极大地减少了将模型适应于特定应用所需的任务特定训练示例的数量。为了进一步了解规模对少样本学习的影响,我们训练了一个拥有 5400 亿参数、密集激活的 Transformer 语言模型,我们称之为 Pathways 语言模型(PaLM)。
我们使用 Pathways 在 6144 个 TPU v4 芯片上训练了 PaLM,Pathways 是一个新的 ML 系统,可以在多个 TPU Pod 上实现高效训练。我们通过在数百个语言理解和生成基准测试中取得最先进的少样本学习结果来展示扩展的持续优势。在其中一些任务中,PaLM 540B 实现了突破性能,在一系列多步推理任务上优于最先进的微调状态,并且在最近发布的 BIG-bench 基准测试中优于平均人类表现。许多 BIG-bench 任务显示出了模型规模的不连续改进,这意味着随着我们扩展到最大模型,性能急剧提高。PaLM 在多语言任务和源代码生成方面也具有强大的能力,我们在广泛的基准测试中进行了展示。此外,我们还对偏见和毒性进行了全面分析,并研究了训练数据记忆程度与模型规模的关系。最后,我们讨论了与大型语言模型相关的伦理考虑,并讨论了潜在的缓解策略。