2018年9月28日 下午1:47
文本数据预处理:sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer - CSDN博客
- 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。
- 总体感知:
- 词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,就是我们常说的向量化。向量化完毕后一般也会使用 TF-IDF 进行特征的权重修正,再将特征进行标准化。 再进行一些其他的特征工程后,就可以将数据带入机器学习模型中计算。
- 词频向量化
- CountVectorizer 类会将文本中的词语转换为词频矩阵,例如矩阵中包含一个元素a[i][j],它表示j词在i类文本下的词频。它通过 fit_transform 函数计算各个词语出现的次数,通过get_feature_names()可获取词袋中所有文本的关键字,通过 toarray()可看到词频矩阵的结果。
- TF-IDF处理
- 然而有些词在文本中尽管词频高,但是并不重要,这个时候就可以用TF-IDF技术。
- TF-IDF模型的概率解释 - Todd Wei - 博客园