网站租用 凡,公司名称logo图片,怎样做网站xml,app跟网站的区别是什么建议自己做#xff0c;写完再来对答案。答案可能存在极小部分错误#xff0c;不保证一定正确。
一、选择题
1-10、C A D B D B C D A A
11-20、A A A C A B D B B A
21-30、B C C D D A C A C B
31-40、B B B C D A B B A A
41-50、B D B C A B B B B C
51-60、A D D …建议自己做写完再来对答案。答案可能存在极小部分错误不保证一定正确。
一、选择题
1-10、C A D B D B C D A A
11-20、A A A C A B D B B A
21-30、B C C D D A C A C B
31-40、B B B C D A B B A A
41-50、B D B C A B B B B C
51-60、A D D B B C B B C A
61-70、C B A B B B D B C B
71-78、B B A D B A C B
二、判断题
1-10、F F T F F T T F F F
11-20、F T T F T F F F T T
21-27、F T F F T T F
三、填空题
1-5、搜索引擎 输出门 Word2Vec 分布式 词
6-10、pytorch LSTM 分布式 深度学习 残差连接
11-15、GloVe 多头注意力 人名 细胞 多标签分类
16-20、join 正面 文本摘要 共现矩阵 生成
21-25、numpy.dot() RNN 二元模型 余弦相似度 位置编码
26-30、长距离依赖 TF-IDF 自注意力机制 稀疏向量表示 SGD
31-35、BERT 多头注意力机制 Hugging Face 精确 softmax(Qi*Ki^T)*Vi
36-40、TensorFlow 一 隐状态 三元模型 门控
41-45、相似性 目标词 BART 模型库(Hub库) 多分类
46-47、精确模式 召回率
四、简答题
1、1分词句子1“我 喜欢 学习 自然语言处理”句子2“自然语言处理 是 我 喜欢 的 课程”
构建词典词典{我, 喜欢, 学习, 自然语言处理}
编码我 - [1, 0, 0, 0, 0] 学习 - [0, 0, 1, 0] 喜欢 - [0, 1, 0, 0] 自然语言处理- [0, 0, 0, 1]
生成特征向量我喜欢学习自然语言处理[1,1,1,1]
2、自注意机制的核心公式为
自注意力机制的计算步骤为1初始化2计算相似度3归一化4加权求和 3、自然语言处理有两个核心方向自然语言理解NLU和自然语言生成NLG。 (2分)
1自然语言理解
自然语言理解的目标是使计算机能够“理解”人类的语言主要集中于解析、分析
和提取文本中的信息。NLU技术通常用于语义分析、信息提取、情感分析、命名实体识别。
2自然语言生成
自然语言生成的目标是使计算机能够生成具有逻辑和语法正确的自然语言文本。NLG技术通常用于文本摘要、对话系统、文本生成。
4、BERT模型在预训练过程中采用了掩码语言模型MLM和下一句预测NSP两种
策略。
1掩蔽语言模型MLM在训练过程中BERT随机掩蔽输入句子中的某些单词通常是15%然后要求模型预测这些被掩蔽的单词。此策略使模型能够从上下文中学习词的表示而不仅仅是从左到右或从右到左的顺序。这种双向的训练方式使BERT能够更好地理解上下文。
2BERT还通过下一句预测NSP这一策略训练模型理解句子之间的关系。在训练时模型接受成对的句子任务是判断第二个句子是否为第一个句子的后续句子。这个任务有助于模型学习句子间的逻辑关系提升了模型在句子级任务如问答和自然语言推理上的表现。 5、该题答案不唯一只要最终值zw1*x1w2*x2与θ的比较和对应真值表的值一致均正确。
6、CBOWContinuous Bag of Words和Skip-gram
相同点1两者都是基于神经网络的模型通过大规模的文本数据训练学习到词语的词向量。2都使用窗口大小来定义上下文目标是捕捉词与词之间的关系和相似性。
不同点1目标不同CBOW 通过上下文预测目标词 Skip-gram 通过目标词预测上下文。2计算复杂度在训练时Skip-gram 适合于低频词而 CBOW 适合于高频词。Skip-gram 对低频词的学习效果更好但计算开销较大而 CBOW 对高频词的学习效果更好。 7、1遗忘门决定哪些信息将被丢弃
2输入门决定哪些信息将被添加到细胞状态
3输出门决定最终的隐藏状态。
8、1输入表示 2计算注意力得分3应用softmax函数4加权和5输出
9、TF-IDFTerm Frequency-Inverse Document Frequency工作原理分为两部分TFTerm Frequency表示某个词在文档中出现的频率这部分反映了词在特定文档中的重要性频率越高重要性越大。
IDFInverse Document Frequency衡量某个词在整个文档集合中的重要性。IDF值越高说明该词越少见具有更高的区分度。
10、1Sigmoid 激活函数。优点输出范围在 (0, 1)适合处理二分类问题。具有平滑的导数便于梯度计算。缺点容易导致梯度消失vanishing gradient问题尤其在深层网络中。输出不是零均值可能导致训练过程中的不稳定。
2ReLURectified Linear Unit激活函数。优点计算简单训练速度快。有效缓解梯度消失问题使得深层网络能够更快地收敛。缺点在训练过程中某些神经元可能永远不被激活dying ReLU问题导致信息损失。
3Tanh 激活函数。优点输出范围在 (-1, 1)有助于数据中心化通常收敛速度比Sigmoid快。相对于SigmoidTanh函数的梯度较大缓解了梯度消失问题。缺点仍然存在梯度消失问题尤其在深层网络中。计算相对复杂速度比ReLU慢。