LLM 技术简介

什么是 LLM？

大语言模型（Large Language Model, LLM）是一类基于深度学习的人工智能模型。它通过在海量文本数据上训练，学习语言的统计规律，从而具备理解与生成自然语言的能力。

LLM 通常基于 Transformer 架构，通过注意力机制（Attention）建模上下文关系。模型本质是预测“下一个 token”的概率分布。

LLM 可以用于文本生成、机器翻译、代码生成、问答系统、内容总结等任务。在对话系统（如 ChatGPT）中，它可以根据上下文生成连贯回复。