自然语言处理(Natural Language Processing,简称 NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。






这份某款手机的商品评论信息数据集,包含 2 个属性,共计 8187 个样本。


import pandas as pd
#读入数据集data = pd.read_excel("data.xls", encoding='gb18030')print(data.head())



# 数据集的大小print(data.shape)
# 数据集的列名print(data.columns.values)
# 不同类别数据记录的统计print(data['Class'].value_counts())


(8186, 2)
array([u'Comment', u'Class'], dtype=object)
1 3042-1 2657 0 2487Name: Class, dtype: int64




# 导入中文分词库jiebaimport jiebaimport numpy as np


cutted = []for row in data.values:    try:        raw_words = (" ".join(jieba.cut(row[0])))        cutted.append(raw_words)    except AttributeError:        print row[0]        cutted.append(u"还行 一般吧")
cutted_array = np.array(cutted)
# 生成新数据文件,Comment字段为分词后的内容data_cutted = pd.DataFrame({ 'Comment': cutted_array, 'Class': data['Class']})





# 导入第三方库wordcloud
from wordcloud import WordCloudimport matplotlib.pyplot as plt


# 好评wc = WordCloud(font_path='Courier.ttf')wc.generate(''.join(data_cutted['Comment'][data_cutted['Class'] == 1]))plt.axis('off')plt.imshow(wc)plt.show()



# 中评
wc = WordCloud(font_path='Courier.ttf')wc.generate(''.join(data_cutted['Comment'][data_cutted['Class'] == 0]))plt.axis('off')plt.imshow(wc)plt.show()



# 差评
wc = WordCloud(font_path='Courier.ttf')wc.generate(''.join(data_cutted['Comment'][data_cutted['Class'] == -1]))plt.axis('off')plt.imshow(wc)plt.show()



# 读入停用词文件import codecs
with codecs.open('stopwords.txt', 'r', encoding='utf-8') as f: stopwords = [item.strip() for item in f] for item in stopwords[0:200]: print(item,)



#设定停用词文件,在统计关键词的时候,过滤停用词import jieba.analyse


# 好评关键词keywords_pos = jieba.analyse.extract_tags(''.join(data_cutted['Comment'][data_cutted['Class'] == 1]), topK=20)for item in keywords_pos:    print(item,)


不错 正品 赠品 五分 发货 东西 满意 机子 喜欢 收到 很漂亮 充电 好评 很快 卖家 速度 评价 流畅 快递 物流


#中评关键词keywords_med = jieba.analyse.extract_tags(''.join(data_cutted['Comment'][data_cutted['Class'] == 0]), topK=20)for item in keywords_med:    print(item,)


充电 不错 发热 外观 感觉 电池 机子 问题 赠品 有点 无线 发烫 换货 软件 快递 安卓 内存 退货 知道 售后


#差评关键词keywords_neg = jieba.analyse.extract_tags(''.join(data_cutted['Comment'][data_cutted['Class'] == -1]), topK=20)
for item in keywords_neg: print(item,)


差评 售后 垃圾 赠品 退货 问题 换货 充电 降价 发票 充电器 东西 刚买 发热 无线 机子 死机 收到 质量 15


4、基于 SVM 的情感分类模型



其中,tftf 为词频,即分词后每个词项在该条评论中出现的次数;dfdf 为出现该词项评论数目;NN 为评论总数,使用对数来适当抑制 tftf 和 dfdf 值的影响。

我们使用sklearn库中的函数直接实现 SVM 算法。在这里,我们选取以下形式的 SVM 模型参与运算。


  • __init__为类的初始化函数,输入参数classifier_typevector_type,分别代表分类模型的类型和向量化方法的类型。

  • fit()函数,来实现向量化与模型建立的过程。


# 实现向量化方法from sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.feature_extraction.text import CountVectorizer
#实现svm和贝叶斯模型from sklearn.svm import SVCfrom sklearn.svm import LinearSVCfrom sklearn.linear_model import SGDClassifier

# 实现交叉验证from sklearn.cross_validation import train_test_splitfrom sklearn.cross_validation import cross_val_score
# 实现评价指标from sklearn import metrics
# 文本情感分类的类:CommentClassifierclass CommentClassifier: def __init__(self, classifier_type, vector_type): self.classifier_type = classifier_type #分类器类型:支持向量机或贝叶斯分类 self.vector_type = vector_type #文本向量化模型:0\1模型,TF模型,TF-IDF模型
def fit(self, train_x, train_y, max_df): list_text = list(train_x) #向量化方法:0 - 0/1,1 - TF,2 - TF-IDF if self.vector_type == 0: self.vectorizer = CountVectorizer(max_df, stop_words = stopwords, ngram_range=(1, 3)).fit(list_text) elif self.vector_type == 1: self.vectorizer = TfidfVectorizer(max_df, stop_words = stopwords, ngram_range=(1, 3), use_idf=False).fit(list_text) else: self.vectorizer = TfidfVectorizer(max_df, stop_words = stopwords, ngram_range=(1, 3)).fit(list_text)
self.array_trainx = self.vectorizer.transform(list_text) self.array_trainy = train_y
#分类模型选择:1 - SVC,2 - LinearSVC,3 - SGDClassifier,三种SVM模型 if self.classifier_type == 1: self.model = SVC(kernel='linear', gamma=10 ** -5, C=1).fit(self.array_trainx, self.array_trainy) elif self.classifier_type == 2: self.model = LinearSVC().fit(self.array_trainx, self.array_trainy) else: self.model = SGDClassifier().fit(self.array_trainx, self.array_trainy) def predict_value(self, test_x): list_text = list(test_x) self.array_testx = self.vectorizer.transform(list_text) array_predict = self.model.predict(self.array_testx) return array_predict
def predict_proba(self, test_x): list_text = list(test_x) self.array_testx = self.vectorizer.transform(list_text) array_score = self.model.predict_proba(self.array_testx) return array_score
  • 使用train_test_split()函数划分训练集和测试集。训练集:80%;测试集:20%。

  • 建立classifier_typevector_type两个参数的取值列表,来表示选择的向量化方法以及分类模型

  • 输出每种向量化方法和分类模型的组合所对应的分类评价结果,内容包括混淆矩阵以及含PrecisionRecallF1-score三个指标的评分矩阵


#划分训练集,测试集train_x, test_x, train_y, test_y = train_test_split(data_cutted['Comment'].ravel().astype('U'), data_cutted['Class'].ravel(),                                                        test_size=0.2, random_state=4)
classifier_list = [1,2,3]vector_list = [0,1,2]
for classifier_type in classifier_list: for vector_type in vector_list: commentCls = CommentClassifier(classifier_type, vector_type) #max_df 设置为0.98 commentCls.fit(train_x, train_y, 0.98) if classifier_type == 0: value_result = commentCls.predict_value(test_x) proba_result = commentCls.predict_proba(test_x) print(classifier_type,vector_type) print('classification report') print(metrics.classification_report(test_y, value_result, labels=[-1, 0, 1])) print('confusion matrix') print(metrics.confusion_matrix(test_y, value_result, labels=[-1, 0, 1])) else: value_result = commentCls.predict_value(test_x) print(classifier_type,vector_type) print('classification report') print(metrics.classification_report(test_y, value_result, labels=[-1, 0, 1])) print('confusion matrix') print(metrics.confusion_matrix(test_y, value_result, labels=[-1, 0, 1]))


1 0classification report             precision    recall  f1-score   support
-1 0.68 0.62 0.65 519 0 0.55 0.49 0.52 485 1 0.75 0.86 0.80 634
avg / total 0.67 0.68 0.67 1638
confusion matrix[[324 130 65] [131 236 118] [ 24 64 546]]1 1classification report precision recall f1-score support
-1 0.71 0.74 0.72 519 0 0.58 0.54 0.56 485 1 0.84 0.85 0.85 634
avg / total 0.72 0.72 0.72 1638
confusion matrix[[385 109 25] [145 263 77] [ 15 80 539]]1 2classification report precision recall f1-score support
-1 0.70 0.74 0.72 519 0 0.58 0.52 0.55 485 1 0.84 0.86 0.85 634
avg / total 0.72 0.72 0.72 1638
confusion matrix[[386 106 27] [151 254 80] [ 14 76 544]]2 0classification report precision recall f1-score support
-1 0.70 0.62 0.66 519 0 0.56 0.51 0.54 485 1 0.76 0.88 0.82 634
avg / total 0.68 0.69 0.68 1638
confusion matrix[[320 135 64] [122 248 115] [ 16 57 561]]2 1classification report precision recall f1-score support
-1 0.69 0.73 0.71 519 0 0.61 0.48 0.54 485 1 0.81 0.91 0.86 634
avg / total 0.71 0.73 0.72 1638
confusion matrix[[377 108 34] [154 233 98] [ 12 44 578]]2 2classification report precision recall f1-score support
-1 0.70 0.74 0.72 519 0 0.61 0.50 0.55 485 1 0.83 0.91 0.87 634
avg / total 0.72 0.73 0.73 1638
confusion matrix[[383 108 28] [154 241 90] [ 13 43 578]]3 0classification report precision recall f1-score support
-1 0.69 0.69 0.69 519 0 0.58 0.47 0.52 485 1 0.79 0.90 0.84 634
avg / total 0.70 0.71 0.70 1638
confusion matrix[[359 118 42] [148 228 109] [ 14 47 573]]3 1classification report precision recall f1-score support
-1 0.70 0.74 0.72 519 0 0.60 0.49 0.54 485 1 0.81 0.88 0.84 634
avg / total 0.71 0.72 0.71 1638
confusion matrix[[386 96 37] [152 240 93] [ 13 66 555]]3 2classification report precision recall f1-score support
-1 0.65 0.75 0.69 519 0 0.63 0.49 0.55 485 1 0.83 0.86 0.85 634
avg / total 0.71 0.72 0.71 1638
confusion matrix[[389 98 32] [169 236 80] [ 45 41 548]]

从结果上来看,选择tfidf向量化方法,使用LinearSVC模型效果比较好,f1-socre为 0.73


data_bi = data_cutted[data_cutted['Class'] != 0]data_bi['Class'].value_counts()


 1    3042-1    2658Name: Class, dtype: int64


1 0classification report             precision    recall  f1-score   support
-1 0.90 0.79 0.84 537 1 0.83 0.92 0.87 603
avg / total 0.86 0.86 0.86 1140
confusion matrix[[425 112] [ 48 555]]1 1classification report precision recall f1-score support
-1 0.87 0.92 0.90 537 1 0.93 0.88 0.90 603
avg / total 0.90 0.90 0.90 1140
confusion matrix[[496 41] [ 71 532]]1 2classification report precision recall f1-score support
-1 0.88 0.93 0.90 537 1 0.93 0.88 0.91 603
avg / total 0.90 0.90 0.90 1140
confusion matrix[[497 40] [ 70 533]]2 0classification report precision recall f1-score support
-1 0.90 0.80 0.85 537 1 0.84 0.92 0.88 603
avg / total 0.87 0.86 0.86 1140
confusion matrix[[431 106] [ 48 555]]2 1classification report precision recall f1-score support
-1 0.92 0.91 0.91 537 1 0.92 0.93 0.92 603
avg / total 0.92 0.92 0.92 1140
confusion matrix[[486 51] [ 43 560]]2 2classification report precision recall f1-score support
-1 0.93 0.91 0.92 537 1 0.92 0.94 0.93 603
avg / total 0.92 0.92 0.92 1140
confusion matrix[[488 49] [ 39 564]]3 0classification report precision recall f1-score support
-1 0.92 0.82 0.87 537 1 0.86 0.94 0.90 603
avg / total 0.89 0.88 0.88 1140
confusion matrix[[443 94] [ 38 565]]3 1classification report precision recall f1-score support
-1 0.92 0.91 0.91 537 1 0.92 0.93 0.92 603
avg / total 0.92 0.92 0.92 1140
confusion matrix[[486 51] [ 41 562]]3 2classification report precision recall f1-score support
-1 0.88 0.93 0.90 537 1 0.93 0.89 0.91 603
avg / total 0.91 0.91 0.91 1140
confusion matrix[[497 40] [ 67 536]]



5、基于 word2vec 中 doc2vec 的无监督分类模型

开源文本向量化工具 word2vec,可以为文本数据寻求更加深层次的特征表示。词语之间可以进行运算:


基于 word2vec 的 doc2vec,将每个文档表示为一个向量,并且通过余弦距离可以计算两个文档的相似程度,那么就可以计算一句话和一句极好的好评的距离,以及一句话到极差的差评的距离。


  • 好评:快 就是 手感 满意 也好 喜欢 也 流畅 很 服务态度 实用 超快 挺快 用着 速度 礼品 也不错 非常好 挺好 感觉 才来 还行 好看 也快 不错的 送了 非常不错 超级 赞 好多东西 很实用 各方面 挺好的 很多 漂亮 配件 还不错 也多 特意 慢 满分 好用 非常漂亮......

  • 差评:不多说 上当 差差 刚用 服务差 一点也不 不要 简直 还是去 实体店 大家 保证 不肯 生气 开发票 磨损 后悔 印记 网 什么破 烂烂 左边 失效 太 骗 掉价 走下坡路 不说了 彻底 三星手机 自营 几次 真心 别的 看完 简单说 机会 这是 生气了 触动 缝隙 冲动了 失望......



import pandas as pdfrom gensim.models import Doc2Vecfrom gensim.models.doc2vec import TaggedDocumentimport logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
train_x = data_bi['Comment'].ravel()train_y = data_bi['Class'].ravel()
#为train_x列贴上标签"TRAIN"def labelizeReviews(reviews, label_type): labelized = [] for i, v in enumerate(reviews): label = '%s_%s' % (label_type, i) labelized.append(TaggedDocument(v.split(" "), [label])) return labelized

train_x = labelizeReviews(train_x, "TRAIN")
#建立Doc2Vec模型modelsize = 300all_data = []all_data.extend(train_x)
model = Doc2Vec(min_count=1, window=8, size=size, sample=1e-4, negative=5, hs=0, iter=5, workers=8)model.build_vocab(all_data)
# 设置迭代次数10for epoch in range(10): model.train(train_x) #建立空列表pos和neg以对相似度计算结果进行存储,计算每个评论和极好评论之间的余弦距离,并存在pos列表中#计算每个评论和极差评论之间的余弦距离,并存在neg列表中pos = []neg = []
for i in range(0,len(train_x)): pos.append(model.docvecs.similarity("TRAIN_0","TRAIN_{}".format(i))) neg.append(model.docvecs.similarity("TRAIN_1","TRAIN_{}".format(i))) #将pos列表和neg列表更新到原始数据文件中,分别表示为字段PosSim和字段NegSimdata_bi[u'PosSim'] = posdata_bi[u'NegSim'] = neg


from matplotlib import pyplot as plt
label= data_bi['Class'].ravel()values = data_bi[['PosSim' , 'NegSim']].values
plt.scatter(values[:,0], values[:,1], c=label, alpha=0.4)plt.show()




  • 将数据集映射到了极低维度的空间,只有二维

  • 一种无监督的学习方法,不需要对原始训练数据进行标注

  • 具有普适性,在其他领域也可以用这种方法,只需要先找出该领域极其正和极其负的方法,将其与所有待识别的数据通过 doc2vec 转化为向量计算距离即可

