TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程

TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程

TfidfVectorizer、CountVectorizer 和 TfidfTransformer 是 sklearn 中处理自然语言常用的工具。TfidfVectorizer 相当于 CountVectorizer + TfidfTransformer。 下面先说 CountVectorizer

CountVectorizer

CountVectorizer 的作用是将文本文档转换为计数的稀疏矩阵。下面举一个具体的例子来说明(代码来自于官方文档)。

阅读更多