做网站步骤详解,磁力搜索引擎torrentkitty,如果自己建立网站,山东钢结构建设局网站前情提要
BoW (Bag of Words) 演算法
假设现在有M篇文章#xff0c;一共使用了N个词汇#xff08;term#xff09;#xff0c;我们就可以将文章转换成以下类型的矩阵#xff0c;其中column1和row1的“10”表示“文章1”中出现了10次“词汇1”#xff0c;“文章1”也可以…前情提要
BoW (Bag of Words) 演算法
假设现在有M篇文章一共使用了N个词汇term我们就可以将文章转换成以下类型的矩阵其中column1和row1的“10”表示“文章1”中出现了10次“词汇1”“文章1”也可以用向量 [10, 0, …, 2] 来表示这就是 BoW (Bag of Words) 演算法。它的优点是非常简单但存在两个明显问题。
表格1 2个问题
由于每篇文章总词汇数不同。如表格1所示词汇2在文章2中出现8次在文章M中出现2次8 2可能被认为词汇2对于文章2比较重要对于文章M比较不重要换个角度来看文章2有400个词汇文章M只有50个词汇2/500.04 8/4000.02这样看来词汇2反而是对于文章M比较重要。惯用词对文章分析影响很大。如词汇N在每篇文章都出现好多次可能是the之类的惯用词文章M的向量可能被这个the所主导但其实the这个字并没有什么特殊的意义。
为了解决以上两个问题TF-IDF演算法应运而生。顾名思义它包含两部分词频Term FrequencyTF和逆向文件频率Inverse Document FrequencyIDF。
进入正题
TF-IDFTerm Frequency - Inverse Document Frequency演算法
。。。
。。。主要内容出处如下
1. [文件探勘]TF-IDF 演算法快速計算單字與文章的關聯 2.