谢谢您的订阅!
当新的内容发布后您将开始接收邮件。您也可以点击邮件内的链接随时取消订阅。关闭Close

大型语言模型(LLM):定义、普及原因、训练方式

by Canonical on 12 December 2023

大型语言模型(LLM)是专门用于理解自然语言的机器学习模型。生成式 AI 在世界范围内被广泛采用之后,大型语言模型便广为人知,但它们的应用范围不止于聊天机器人。LLM 适合生成翻译或内容摘要。本篇博客将介绍大型语言模型 (LLM),包括其优点、挑战、出名的项目和未来发展趋势。

大型语言模型(LLM)是机器学习模型。它们通常包含深度学习的最新进展。这些模型可以执行与语言相关的任务,不只是文本生成。它们采用非常大的非结构化数据集进行训练,以学习模式并识别文本中的关系。文本可以有条件地加以提示,从而简化自然语言或代码中的有用任务。

语言模型的复杂程度各不相同。通常,LLM 指的是使用深度学习技术捕获复杂模式以生成文本的模型。它们具有大量的参数,通常使用自监督学习进行训练。大型语言模型超出了大型转换器模型的范畴,因为它太大而无法在单台机器上运行。LLM 通常以 API 或网页界面的形式提供。

LLM 用例

LLM 的用例有很多。其中不仅包括纯文本生成,还包括翻译、人际互动或摘要。它们被企业组织用于解决各种问题,包括:

  • 通过减少重复性任务来提高生产力
  • 解决人才短缺问题
  • 内容创作
  • 情感分析

内容生成

根据应用程序的不同,有多个 LLM 可以用于基于触发器或不基于触发器的内容生成。虽然内容本身需要优化,但 LLM 可以生成很棒的初稿,非常适合进行头脑风暴、解决问题或捕获灵感。它们不应该被视作拥有真相之源的事实手册。 

聊天机器人

LLM 可能被用于聊天机器人,有助于提供客户支持,故障排除,甚至进行开放式对话。它们还可以加速信息收集过程,解决反复出现的问题或疑问。 

语言翻译

翻译是 20 世纪 50 年代促使 LLM 项目启动的主要动力。但如今,LLM 可以自动翻译各种语言的内容,实现内容本地化。虽然它们运行良好,但值得一提的是,其输出质量取决于不同语言的可用数据量。

情感分析

LLM 通常会提取文本并分析情绪和观点,以判断情绪。企业组织经常使用它来收集数据,总结反馈并快速识别改进机会。它既可以帮助企业提高客户满意度,又可以帮助企业识别开发和功能需求。

这些只是受益于 LLM 的部分用例。其他一些应用包括文本聚类、内容摘要或代码生成。

构建 LLM 时的挑战

LLM 看起来是一个复杂而创新的解决方案,可以为企业助力并让人工智能爱好者兴奋不已。但构建 LLM 却存在着一系列的挑战:

  • 大型数据集不可或缺。尽管企业在努力改进数据收集流程和数据质量,但仍有一些行业的数据由于不同的原因——要么是数字化程度不够,要么就是可用性不足——仍然不可用。 
  • 训练 LLM 需要提高计算能力。GPU 或 DGX 等强大计算资源的可用性成就了 LLM,这种可用性也代表了一种限制,因为其成本高昂且交付时间长。
  • 人才短缺是任何人工智能项目都会面临的挑战,因为寻找能够构建或微调 LLM 的熟练人员比较耗时。技能差距是任何举措中都存在的挑战——人们对人工智能的兴趣增长速度快于对人才增长速度。 
  • 训练缓慢会延迟项目交付。根据训练所用硬件以及数据集大小的不同,训练可能需要耗费数月。
  • 可解释性仍然是个难题,这也是专业人士经常难以理解 LLM 输出的一些预测信息的一个重要原因。在数十亿参数之间进行挖掘非常耗时,而且预测通常几乎不会受到偏倚数据所影响,而偏倚数据更加难以检测。

LLM 的好处

随着人工智能的普及以及更多 LLM 的构建,重申大型语言模型带来的好处至关重要。广大受众、各行各业的企业、热衷于深度学习的工程师以及跨越不同工作领域的专业人士对 LLM 都很感兴趣,因为它们具有复制人类语言的功能。

  • 它们可以捕捉语言的细微差别,通常会捕捉文档的上下文。这样可以让翻译或情感分析更加准确。
  • 它们可以减少耗费在重复性任务上的时间,甚至减轻花费时间收集信息的负担。例如,聊天机器人可以提出问题,帮助客户支持团队更快地处理工单。
  • 它们具有加速模型训练和减少所需数据的潜力。这与 LLM 可用的参数数量有关——数量越大,所需的数据量就越小。

开源 LLM

2023 年,社区的蓬勃发展让开源 LLM 应运而生。Huggingface 只是在 ChatGPT 发布后活跃量激增的例子之一,其目标是在不同的应用程序中获得遵循指令的大型语言模型。这就导致开源 LLM 的数量呈爆炸式增长,如 Guancoh2oGPTOpenAssistant。关于开源 LLM,以下几点值得注意:

  • 拥有数十亿参数的 LLM 在性能方面可以轻松与极大型数据集上训练的模型一较高下。
  • 微调小型 LLM 所需预算较低。
  • 社区的贡献让开源 LLM 进步速度快得多。
  • 诸如低秩自适应(LoRa)之类的技术可以降低训练成本。

即开即用的解决方案仍然对企业具有吸引力,但从长期来看,开源社区可能会加大力度在新的环境(包括笔记本电脑)中提供 LLM。这还有可能让拥有专有 LLM 的企业组织和开源社区之间开展前所未有的合作,前者专注于构建模型(因为他们拥有计算能力),后者则致力于对模型进行微调。

LLM 工具

大型语言模型需要使用大量的数据和高性能硬件。此外还需要用于实验跟踪、数据清洗和管道自动化的工具。开源机器学习平台,如 Canonical 推出的 Charmed Kubeflow,都是很好的选择,因为它们可以让开发人员在一个工具中运行端到端的机器学习生命周期。使用 Charmed Kubeflow,让专业人员能够通过使用应用或遵循 EKS 指南,在公共云上开始训练。Charmed Kubeflow 已在 NVIDIA DGX 等高性能硬件上经过测试和认证。Canonical 的产品组合包括 Charmed MLFlow 和一个可观察性堆栈

对机器学习操作 (MLOps) 生态系统感到好奇?

阅读我们的指南

阅读更多

订阅博客文章

订阅您感兴趣的主题

在提交此表格的同时,我确认已阅读和同意的隐私声明隐私政策。

查看更多内容

Ubuntu Pro 部署 Nutanix 裸机 Kubernetes

Nutanix 与 Canonical 扩大合作,为容器化工作负载提供更多选择 企业级 Kubernetes® 正逐步发展为高度灵活的多架构模型。随着 AI/ML 及数据密集型工作负载对硬件吞吐量的要求不断提升,企业在追求裸机性能的同时,也希望兼顾云平台的运维一致性。 为满足这一需求,Nutanix 与 Canonical 已将 Ubuntu Pro 服务拓展至裸机环境下运行的 Nutanix Kubernetes 平台 (NKP) 实例,涵盖最新发布的 NKP Metal 解决方案。本次功能拓展基于双方 2025 年达成的合作,彼时搭载安全补丁的 Ubuntu 操作系统可支持虚拟机环境下运行的 NKP 实例。安全补丁服务隶属于 Ubuntu Pro,是 Canonica […]

Canonical 发布 Ubuntu Core 26

Ubuntu Core 26 推出精准化 Linux 构建、优化的 OTA 更新、实时内核补丁,以及面向关键任务部署的增强型硬件级安全防护。 2026 年 5 月 19 日,Canonical 宣布正式发布 Ubuntu Core 26。该系统为极简不可变操作系统,提供长达 15 年的安全维护支持。  Ubuntu Core 26 针对关键任务操作与低延迟 AI 工作负载实现重大系统改进:安装时长缩短、OTA 更新包体积缩减 90%,并借助 Chisel 工具实现精准化系统构建。与以往版本一致,所有组件均为经过沙箱隔离、加密签名的 Snap 软件包,构建可信启动链,仅允许运行经验证的软件。凭借这款全新长期支持(LTS)版本,Ubuntu Core 仍是适用于关键任务系统的 […]

Ubuntu 26.04 LTS 在安全方面的新增功能

Ubuntu 26.04 LTS 是我们安全设计最为完善的 LTS 版本之一。Ubuntu 26.04 LTS 并非单纯新增功能,而是通过同步提升系统各层级的安全基准,实现全方位安全强化,且全程无需中断部署或人工干预。通过“默认设置”聚焦安全核心,我们得以采用全新方式强化 Ubuntu 的安全性。本文将带您一览 Ubuntu 26.04 LTS 在安全方面的新增功能,包括:  Ubuntu 26.04 LTS 为未来十年桌面端、服务器、机密虚拟机、云镜像及边缘系统的 Linux 部署,显著提升了默认安全基线。对于将 Ubuntu 作为安全基础进行标准化部署的企业而言,该版本是其业务构建的理想选择。 安全性不再仅限于安装阶段:安全中心升级为控制平面 以往,关键的安全决策(例 […]