功能网站模板,自己做网站如何放置在服务器中,高埗做网站,wordpress建站教程“语言不是神的创造物#xff0c;而是平凡人类的产物。”——诺姆乔姆斯基 自然语言处理#xff08;NLP#xff09;的发展史#xff0c;就是人类试图教会机器理解语言本质的探索史。本文将带您穿越70年技术长河#xff0c;揭示NLP领域关键的范式转换里程碑。 一、规则驱动… “语言不是神的创造物而是平凡人类的产物。”——诺姆·乔姆斯基 自然语言处理NLP的发展史就是人类试图教会机器理解语言本质的探索史。本文将带您穿越70年技术长河揭示NLP领域关键的范式转换里程碑。 一、规则驱动时代1950s-1980s语言学的黄金岁月
核心范式基于语言学规则的手工编码
# 典型规则模板ELIZA心理治疗系统1966
if mother in input:response Tell me more about your family
elif sad in input:response Why do you feel sad?技术突破
1954乔治城-IBM实验首次机器翻译俄→英1966ELIZA - 第一个对话系统模式匹配1971SHRDLU - 首个理解自然语言命令的系统
局限性
规则爆炸处理打开灯需编码[“开灯”,“亮灯”,“照明启动”…]无法处理歧义“银行存钱” vs “河岸银行” 二、统计学习时代1990s-2000s概率的革命
核心范式从语料库中学习概率模型 #mermaid-svg-cNMpwx7NAYHHA5Fv {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .error-icon{fill:#552222;}#mermaid-svg-cNMpwx7NAYHHA5Fv .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-cNMpwx7NAYHHA5Fv .marker{fill:#333333;stroke:#333333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .marker.cross{stroke:#333333;}#mermaid-svg-cNMpwx7NAYHHA5Fv svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-cNMpwx7NAYHHA5Fv .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .cluster-label text{fill:#333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .cluster-label span{color:#333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .label text,#mermaid-svg-cNMpwx7NAYHHA5Fv span{fill:#333;color:#333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .node rect,#mermaid-svg-cNMpwx7NAYHHA5Fv .node circle,#mermaid-svg-cNMpwx7NAYHHA5Fv .node ellipse,#mermaid-svg-cNMpwx7NAYHHA5Fv .node polygon,#mermaid-svg-cNMpwx7NAYHHA5Fv .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-cNMpwx7NAYHHA5Fv .node .label{text-align:center;}#mermaid-svg-cNMpwx7NAYHHA5Fv .node.clickable{cursor:pointer;}#mermaid-svg-cNMpwx7NAYHHA5Fv .arrowheadPath{fill:#333333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-cNMpwx7NAYHHA5Fv .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-cNMpwx7NAYHHA5Fv .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-cNMpwx7NAYHHA5Fv .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-cNMpwx7NAYHHA5Fv .cluster text{fill:#333;}#mermaid-svg-cNMpwx7NAYHHA5Fv .cluster span{color:#333;}#mermaid-svg-cNMpwx7NAYHHA5Fv div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-cNMpwx7NAYHHA5Fv :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 语料库 词频统计 概率模型 预测 关键算法
N-gram语言模型 P ( w n ∣ w 1 : n − 1 ) ≈ P ( w n ∣ w n − 1 ) P(w_n|w_{1:n-1}) \approx P(w_n|w_{n-1}) P(wn∣w1:n−1)≈P(wn∣wn−1)隐马尔可夫模型HMM P ( 词序列 ∣ 标签序列 ) ∏ P ( 词 ∣ 标签 ) × P ( 标签 ∣ 前标签 ) P(\text{词序列}|\text{标签序列}) \prod P(\text{词}|\text{标签}) \times P(\text{标签}|\text{前标签}) P(词序列∣标签序列)∏P(词∣标签)×P(标签∣前标签)最大熵模型 P ( y ∣ x ) 1 Z ( x ) exp ( ∑ i λ i f i ( x , y ) ) P(y|x) \frac{1}{Z(x)}\exp\left(\sum_i \lambda_i f_i(x,y)\right) P(y∣x)Z(x)1exp(i∑λifi(x,y))
里程碑
1990IBM Model 1 - 统计机器翻译开端2003条件随机场CRF成为NER标准方案2006Google基于统计的翻译系统上线
局限依赖人工特征工程无法捕捉深层语义 三、神经网络复兴2010-2013深度学习的曙光
范式转换端到端表示学习
# 词向量示例Word2Vec, 2013
king_vec model.wv[king]
man_vec model.wv[man]
woman_vec model.wv[woman]
queen_vec king_vec - man_vec woman_vec # 向量运算突破性工作
2011Collobert Weston - 首个神经网络NLP框架2013Mikolov - Word2VecCBOW/Skip-gram2013Socher - RNN情感分析树结构递归网络
影响
词向量成为NLP基础组件发现语言中的几何结构king - man woman ≈ queen 四、序列建模时代2014-2017RNN的巅峰
核心架构循环神经网络变体 #mermaid-svg-Kk0AGgCmfuORiCmu {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Kk0AGgCmfuORiCmu .error-icon{fill:#552222;}#mermaid-svg-Kk0AGgCmfuORiCmu .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-Kk0AGgCmfuORiCmu .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-Kk0AGgCmfuORiCmu .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-Kk0AGgCmfuORiCmu .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-Kk0AGgCmfuORiCmu .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-Kk0AGgCmfuORiCmu .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-Kk0AGgCmfuORiCmu .marker{fill:#333333;stroke:#333333;}#mermaid-svg-Kk0AGgCmfuORiCmu .marker.cross{stroke:#333333;}#mermaid-svg-Kk0AGgCmfuORiCmu svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-Kk0AGgCmfuORiCmu .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-Kk0AGgCmfuORiCmu .cluster-label text{fill:#333;}#mermaid-svg-Kk0AGgCmfuORiCmu .cluster-label span{color:#333;}#mermaid-svg-Kk0AGgCmfuORiCmu .label text,#mermaid-svg-Kk0AGgCmfuORiCmu span{fill:#333;color:#333;}#mermaid-svg-Kk0AGgCmfuORiCmu .node rect,#mermaid-svg-Kk0AGgCmfuORiCmu .node circle,#mermaid-svg-Kk0AGgCmfuORiCmu .node ellipse,#mermaid-svg-Kk0AGgCmfuORiCmu .node polygon,#mermaid-svg-Kk0AGgCmfuORiCmu .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-Kk0AGgCmfuORiCmu .node .label{text-align:center;}#mermaid-svg-Kk0AGgCmfuORiCmu .node.clickable{cursor:pointer;}#mermaid-svg-Kk0AGgCmfuORiCmu .arrowheadPath{fill:#333333;}#mermaid-svg-Kk0AGgCmfuORiCmu .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-Kk0AGgCmfuORiCmu .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-Kk0AGgCmfuORiCmu .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-Kk0AGgCmfuORiCmu .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-Kk0AGgCmfuORiCmu .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-Kk0AGgCmfuORiCmu .cluster text{fill:#333;}#mermaid-svg-Kk0AGgCmfuORiCmu .cluster span{color:#333;}#mermaid-svg-Kk0AGgCmfuORiCmu div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-Kk0AGgCmfuORiCmu :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 输入 LSTM 输出 GRU 关键技术
Seq2Seq2014encoder LSTM(input_seq) # 编码
context encoder.last_hidden
decoder LSTM(init_statecontext) # 解码注意力机制2015 α t softmax ( Q K T / d ) \alpha_t \text{softmax}(QK^T/\sqrt{d}) αtsoftmax(QKT/d )神经机器翻译NMT 2016 Google翻译从统计转向神经网络
里程碑
2015Bahdanau注意力2017Convolutional Seq2SeqFacebook
局限顺序计算无法并行长距离依赖仍困难 五、Transformer革命2017-2018注意力就是一切
划时代论文Vaswani《Attention Is All You Need》
# 自注意力核心代码
Q linear(query) # [batch, len, dim]
K linear(key) # [batch, len, dim]
V linear(value) # [batch, len, dim]
attn_weights softmax(Q K.transpose() / sqrt(dim))
output attn_weights V架构创新
多头注意力并行捕捉不同语义关系位置编码替代RNN的顺序信息残差连接解决深层梯度消失
影响
训练速度提升5-10倍BLEU分数提升30% 六、预训练时代2018-2020知识蒸馏
范式特征预训练 微调 #mermaid-svg-a5U6TKiUQXkNOR6Q {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .error-icon{fill:#552222;}#mermaid-svg-a5U6TKiUQXkNOR6Q .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-a5U6TKiUQXkNOR6Q .marker{fill:#333333;stroke:#333333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .marker.cross{stroke:#333333;}#mermaid-svg-a5U6TKiUQXkNOR6Q svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-a5U6TKiUQXkNOR6Q .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .cluster-label text{fill:#333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .cluster-label span{color:#333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .label text,#mermaid-svg-a5U6TKiUQXkNOR6Q span{fill:#333;color:#333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .node rect,#mermaid-svg-a5U6TKiUQXkNOR6Q .node circle,#mermaid-svg-a5U6TKiUQXkNOR6Q .node ellipse,#mermaid-svg-a5U6TKiUQXkNOR6Q .node polygon,#mermaid-svg-a5U6TKiUQXkNOR6Q .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-a5U6TKiUQXkNOR6Q .node .label{text-align:center;}#mermaid-svg-a5U6TKiUQXkNOR6Q .node.clickable{cursor:pointer;}#mermaid-svg-a5U6TKiUQXkNOR6Q .arrowheadPath{fill:#333333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-a5U6TKiUQXkNOR6Q .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-a5U6TKiUQXkNOR6Q .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-a5U6TKiUQXkNOR6Q .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-a5U6TKiUQXkNOR6Q .cluster text{fill:#333;}#mermaid-svg-a5U6TKiUQXkNOR6Q .cluster span{color:#333;}#mermaid-svg-a5U6TKiUQXkNOR6Q div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-a5U6TKiUQXkNOR6Q :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 大规模语料 预训练 任务微调 应用 模型进化史
模型发布时间参数量突破点ELMo2018.0294M双向LSTM上下文嵌入GPT-12018.06117M单向TransformerBERT2018.10340MMasked双向预训练GPT-22019.021.5B零样本学习能力T52019.1011B文本到文本统一框架
技术遗产
上下文词向量如BERT的CLS向量Prompt工程雏形 七、大模型时代2020-今涌现的智慧
范式特征模型即平台
# ChatGPT的思维链提示2022
prompt
Q: 咖啡馆有23个苹果用掉20个做派又买了6个现在有几个
A: 我们一步步思考
1. 起始数23个苹果
2. 用掉20个23-203
3. 买了6个369
所以答案是9个。关键进展
模型规模化 GPT-320201750亿参数PaLM20225400亿参数 训练方法革命 RLHF人类反馈强化学习指令微调Instruction Tuning 新能力涌现 思维链推理Chain-of-Thought代码即语言Codex
应用生态 #mermaid-svg-zCeyfq6gVegep0gZ {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-zCeyfq6gVegep0gZ .error-icon{fill:#552222;}#mermaid-svg-zCeyfq6gVegep0gZ .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-zCeyfq6gVegep0gZ .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-zCeyfq6gVegep0gZ .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-zCeyfq6gVegep0gZ .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-zCeyfq6gVegep0gZ .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-zCeyfq6gVegep0gZ .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-zCeyfq6gVegep0gZ .marker{fill:#333333;stroke:#333333;}#mermaid-svg-zCeyfq6gVegep0gZ .marker.cross{stroke:#333333;}#mermaid-svg-zCeyfq6gVegep0gZ svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-zCeyfq6gVegep0gZ .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-zCeyfq6gVegep0gZ .cluster-label text{fill:#333;}#mermaid-svg-zCeyfq6gVegep0gZ .cluster-label span{color:#333;}#mermaid-svg-zCeyfq6gVegep0gZ .label text,#mermaid-svg-zCeyfq6gVegep0gZ span{fill:#333;color:#333;}#mermaid-svg-zCeyfq6gVegep0gZ .node rect,#mermaid-svg-zCeyfq6gVegep0gZ .node circle,#mermaid-svg-zCeyfq6gVegep0gZ .node ellipse,#mermaid-svg-zCeyfq6gVegep0gZ .node polygon,#mermaid-svg-zCeyfq6gVegep0gZ .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-zCeyfq6gVegep0gZ .node .label{text-align:center;}#mermaid-svg-zCeyfq6gVegep0gZ .node.clickable{cursor:pointer;}#mermaid-svg-zCeyfq6gVegep0gZ .arrowheadPath{fill:#333333;}#mermaid-svg-zCeyfq6gVegep0gZ .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-zCeyfq6gVegep0gZ .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-zCeyfq6gVegep0gZ .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-zCeyfq6gVegep0gZ .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-zCeyfq6gVegep0gZ .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-zCeyfq6gVegep0gZ .cluster text{fill:#333;}#mermaid-svg-zCeyfq6gVegep0gZ .cluster span{color:#333;}#mermaid-svg-zCeyfq6gVegep0gZ div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-zCeyfq6gVegep0gZ :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 大模型 ChatBot Copilot Agent 多模态 NLP范式演进时间轴
gantttitle NLP发展七次范式革命dateFormat YYYYsection 规则时代机器翻译实验 1954, 3yELIZA对话系统 1966, 5ysection 统计时代IBM Model 1 1990, 8yCRF模型 2003, 5ysection 神经网络Word2Vec 2013, 2ySeq2Seq 2014, 3ysection TransformerAttention论文 2017, 1ysection 预训练BERT 2018, 2yGPT-3 2020, 1ysection 大模型ChatGPT 2022, 2yGPT-4 Turbo 2023, 1y技术转折点对比
范式训练数据量典型模型规模关键指标规则系统0手工规则覆盖规则数统计模型MB级特征工程准确率85%神经网络GB级百万参数词向量相似度TransformerTB级亿级参数BLEU 40预训练模型TB级十亿参数GLUE 90大语言模型PB级万亿参数MMLU 85% 未来方向超越文本的认知革命
多模态融合 文本图像音频如GPT-4V 自主智能体agent LLM Tools Memory
agent.solve(预测明年美股走势)神经符号系统 大模型负责直觉符号系统保证逻辑 脑启发架构 类脑脉冲神经网络处理语言 从香农的信息论到Transformer的注意力机制NLP的发展揭示了一个深刻真理语言理解不是代码的堆砌而是对人性化表达的数学建模。当机器能真正理解夏天的风是薄荷味的这样的隐喻时新的智能纪元才真正开启。 理解这段历史我们才能预见当语言不再是障碍人类与AI的协作将重塑知识创造的边界。