什么是 LLM?
大语言模型(Large Language Model, LLM)是一类基于深度学习的人工智能模型。 它通过在海量文本数据上训练,学习语言的统计规律,从而具备理解与生成自然语言的能力。
核心原理
LLM 通常基于 Transformer 架构,通过注意力机制(Attention)建模上下文关系。
模型本质是预测“下一个 token”的概率分布。
能力与应用
LLM 可以用于文本生成、机器翻译、代码生成、问答系统、内容总结等任务。 在对话系统(如 ChatGPT)中,它可以根据上下文生成连贯回复。
局限性
LLM 并不具备真正的人类理解能力,其输出依赖于训练数据分布, 可能出现“幻觉”(hallucination)或事实错误。