jieba分词

  将文本中的每一个词都切开了,我们把这个叫分词或者叫tokenize。“jieba”分词就是可以将文本按照你想要的方式对其进行词语精确拆分,有全模式、精确模式和搜索引擎模式,能够实现对拆分后的中文文本进行词性的标注,也可以准确的提取其中的关键词,是一个方便且实用的分词组件。本课题主要用来对文本进行分词。

 

TF-IDF和词袋

  TF是词频,某个词在文档中出现的次数,TF越大一般来说越重要,用词频(TF)来表示一个词在文本中的重要性有一个致命的缺点:常用词的重要性会被放大。因为在一段文本中可能常用词,例如“我”、“和”等词会多次出现,但是它对文本的重要性其实并没有那么大,当然大多数情况下出现得多的词重要性也会相对较强,所以不能一概而论。

  DF是文档频率,和词频差不多,只不过它是统计在整篇文档里出现的频率。同样的,当词语不是一个高频词,仅仅在某几个或特定的一篇文档当中存在时,DF也相对较小,这样的词,要么有可能是专业名词,这样的词语代表性比较强,如果太少,那么就有可能是生僻词,也是不重要的。

IDF表示逆文档频率,它是 DF 的倒数,IDF 越大表示该词越少见,也越重要。 TF-IDF 也就是TF * IDF,综合了 TF 和 IDF 两个因素来平衡词的重要性,是用来评估一个字词在语料库中的其中一份文件的重要程度。

 

word2vec模型

    词向量,英文叫 Word2Vec,又叫词嵌入,这种方法可以解决词袋模型的稀疏性问题,它的核心思想是:每一个词映射到一个多维空间中,成为空间中的一个向量,一般这个多维空间的维数不会太高,在几百个的量级。由于词向量由几百个维度构成,所以也被称为分布式表征。词向量模型是通过对原始文本建模训练学习得到的。由于词向量把每一个词映射到了一个高维空间中,并用向量表示,向量的生成是基于词与词之间的相关性得来,可以理解为相关的词在空间中的位置会比较靠近,所以词向量有一个非常有趣的特性,那就是类比。词向量模型的核心原理就是用邻居词的概率分布来作为中心的词向量表示。

Flask框架

    Flask 是一个微型的 Python 开发的 Web 框架,经过搜集资料了解到,它没什么别的优点,最主要是简单,容易学习,而且它是从Django中分离并进行改进的,也因此吸取了Django的大多数优点,再加上改进的更加小巧灵活,可以说,它非常很方便非专业web开发人员去学习从而开发出一个简单的web。