0%

词袋模型

2018年9月28日 下午1:47

文本数据预处理:sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer - CSDN博客

  1. 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关
  2. 总体感知:
    1. 词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,就是我们常说的向量化。向量化完毕后一般也会使用 TF-IDF 进行特征的权重修正,再将特征进行标准化。 再进行一些其他的特征工程后,就可以将数据带入机器学习模型中计算。
  3. 词频向量化
    1. CountVectorizer 类会将文本中的词语转换为词频矩阵,例如矩阵中包含一个元素a[i][j],它表示j词在i类文本下的词频。它通过 fit_transform 函数计算各个词语出现的次数,通过get_feature_names()可获取词袋中所有文本的关键字,通过 toarray()可看到词频矩阵的结果。
  4. TF-IDF处理
    1. 然而有些词在文本中尽管词频高,但是并不重要,这个时候就可以用TF-IDF技术。
    2. TF-IDF模型的概率解释 - Todd Wei - 博客园