不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

用户头像
JackTian
关注
发布于: 2020 年 05 月 28 日
不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

作者:Huang supreme、print('I love u {}'.format(lcw)

原文链接:[不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。](https://mp.weixin.qq.com/s/GDGJDM8iJ2dbAJxd9YBV2w)

一、案例说明

1、案例背景



520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。



我们爬取了京东商城口红近 4000 条口红商品信息,并对这些口红数据进行分析,让大家买口红给女朋友时有个选择的参考,从如下几个方面去分析:



1、哪些价格区间的口红卖的最好?

2、口红销量分布情况。

3、销量前10的口红有哪些?

4、销量前10的店铺。

5、商品价格和销量的关系。

2、任务说明



通过 Python 爬虫爬取了京东上所有口红铺的数据集 jd_data.csv。



我们希望通过该数据集,针对不同的口红品牌和店铺进行统计与分析,从而能够解开我们上述疑问。

3、数据字段的说明



字段含义图:



4、数据分析的流程





二、数据预处理

数据清洗

1、首先从csv文件中导入数据



import pandas as pd 

import matplotlib.pyplot as plt 

#读取数据

dataframe = pd.readcsv('jddata.csv',encoding = 'gb18030')#这里不能使用utf-8

print(dataframe.shape)

查看下有多少行、列数据:



(3816, 6)



共有3816行,6列(上面有这六个字段说明)

2、缺失值处理
data = dataframe.dropna(how='any')
data.head()
print(data.shape)

(3610, 6)

从这里可以看出还是有些缺失值的



对于缺失值的处理主要有两种方法:



删除



填充:分为均值、中位数、众数、附近值进行填充,还有牛顿差值法等等。

这里偷一下懒,使用比较简便的删除的方式处理缺失值,毕竟缺失的不是很多。

# inplace=True表示原地修改数据集
data.dropna(axis=0, inplace=True)

# 对删除后缺失值后的数据集,再次进行缺失值统计
data.isnull().sum(axis=1)

数据转换

1、将评论的+和万字修改
def dealComment(comm_colum):
num = str(comm_colum).split('+')[0]
if '万' in num:
if '.' in num :
num = num.replace('.','').replace('万','000')
else:
num = num.replace('.','').replace('万','0000')
return num
dataframe['comment'] = dataframe['comment'].apply(lambda x: dealComment_num(x))
#转换成int类型
dataframe['comment'] = dataframe.comment.astype('int')
data = dataframe.drop('comment',axis = 1)
print(data.head(10))



经过处理完后的数据:



数据预处理是数据分析的一项重要任务,能否得到准确的数据分析结果离不开数据预处理,下面我们开始对口红数据进行分析吧!

三、数据分析



京东上面商品没有销量这一信息,我们姑且将评论数当成是销量。



本次项目中取用了 name、price、comment、shop_name 、shop_type 这几个字段的信息。



分别是商品标题名称、价格、评论数、店铺名、店铺类型来进行分析。

1、口红价格分布区间

import pandas as pd
import matplotlib.pyplot as plt

#读取数据
data = pd.read_csv('jd_data.csv',encoding = 'gb18030')

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.figure(figsize=(10,8))
price = data[data['price'] < 1000]
plt.hist(price['price'], bins=10, color='brown')
plt.xlabel('价格')
plt.ylabel('商品数量')
plt.title('价格商品分布')
plt.show()



结果如下:

通过上图,可以很清楚看到:



1、口红的价格绝大多数在0-500元的区间之内,但是也有口红的售价达到了1000元,哈哈努力挣钱吧。



2、其中200-300元价位的数量非常的高,超过了1200,而且价格超过300元的有明显的减少趋势,哈哈价格才是王道。

2、销量分布情况



由于没有爬取到销量信息,所以将评论数当成销量

#销量分析
sale_num = data[data['comment'] > 100]
plt.figure(figsize=(10,8))
#print(len(sale_num)/len(data)) #查看下大致的区间分布
plt.hist(sale_num['comment'], bins=20, color='blue')
plt.xlabel('销量')
plt.ylabel('数量')
plt.title('销量情况')
plt.show()

结果如下:

通过直方图我们可以看到:



1、销售量基本是在20万以内。



2、销售量在10万以内的占了绝大多数



3、还有极个别的店铺销量竟然超过了100万

3、销售前10的口红

#销售前10的口红
#抽取商品标题的简略信息
def get_title(item):
title = item.split(' ')[0]
return title

data['small_name'] = data['name'].apply(lambda x: get_title(x))
data1 = data.drop('name',axis = 1)
top10Lipstick = data1.sort_values('comment',ascending=False)
print(top10Lipstick.head(10))
title = top10Lipstick['small_name'][:10]
sale_num = top10Lipstick['comment'][:10]
plt.figure(figsize=(10,8),dpi = 80)
plt.bar(range(10),sale_num,width=0.6,color='red')
plt.xticks(range(10),title,rotation=45)
#plt.ylim((9,9.7)) #设置y轴坐标
plt.ylabel('数量')
plt.xlabel('标题')
plt.title('销量前10的糖果')
for x,y in enumerate(list(sale_num)):
plt.text(x,float(y)+0.01,y,ha='center')

结果如下:



可以发现,排名前三位的是:



1、京东国际魅可(MAC)经典唇膏 子弹头口红3g Chili 小辣椒色



商品图片





2、【520礼物】中国风口红套装礼盒女颐和园同款唇膏唇釉学生非小样彩妆 口红套装(6支)



商品图片



3、【520礼物】迪奥(Dior)烈艳蓝金唇膏-哑光999# 3.5g 传奇红(口红 正红色 传奇红 赠精美礼盒)



商品图片



4、销量前10的店铺



分析完销量前10的商品后,我们再来看下销量前10的店铺:



代码如下:

#销量前10的店铺
top_shop = data.groupby('shop_name')['comment'].sum().sort_values(ascending=False)[:10]
print(top_shop.head(10))

plt.figure(figsize=(10,8),dpi = 80)
top_shop.plot(kind = 'bar',color='red',width= 0.6)
plt.ylabel('数量')
plt.xlabel('店铺名')
plt.title('销量前10的店铺')
plt.xticks(rotation=45)
for x,y in enumerate(list(top_shop)):
plt.text(x,float(y)+0.1,y,ha='center')
plt.show()

结果如下:

由上图可以看到:



1、MAC魅可海外自营专区 占据第一名,达 1365308的销售量,而且基本前10的店铺销量都在5万以上。



2、前三名都基本达到了130多万



3、前10名中有5个是京东自营

5、商品价格和销量的关系



我们采用散点图的方式,看看价格和销量的分布关系

plt.figure(figsize=(10,8))
plt.scatter(data['price'],data['comment'], color='blue')
plt.xlabel('价格')
plt.ylabel('销量')
plt.title('价格、销量的散点分布')
plt.show()

结果如下:

可以看出:



随着价格的升高销量会减小,而且价格在400内,对销量的影响不大,证明绝大多数人的口红消费区间在0-400元之间,但是最贵的竟然达到了近1700元,哈哈,贫穷限制了我的想象。

四、总结



经过这次小小的数据分析,还是学到了许多的。作为一名小白,还有许多要学习:



  • 数据清洗,它是能分析出正确结果的保证;

  • 如何挖掘数据不同维度间的联系等;

不足:本次数据分析还有许多需要完善的地方:



  • 比如分析不同类型的店铺占比店铺;

  • 不同类型的店铺之间的销量对比;

  • 由于本次没有爬取评论数据,没有做情感分析;



数据分析之路还很漫长,加油!



另外,杰哥建立了一个交流群,关于Python、数据分析领域的微信群,大家可以添加我的微信:Hc220066,备注:读者,或扫描下方二维码添加邀请你。

原创不易,码字不易。觉得这篇文章对你有点用的话,麻烦你为本文点个在看,或转发一下,因为这将是我输出更多优质文章的动力,感谢!



关注微信公众号『杰哥的IT之旅』,后台回复“1024”查看更多内容,回复“微信”添加我微信。





发布于: 2020 年 05 月 28 日 阅读数: 1411
用户头像

JackTian

关注

公众号:杰哥的IT之旅 微信:Hc220066 2018.09.21 加入

一名奋斗在一线城市的 Linux 中级运维工程师。 擅长 Linux、运维、GitHub 等方向领域; 爱好写作,听歌,喜欢交朋友,走过路过的朋友,也可以通过我的签名添加我的微信,畅聊你我之间的故事。

评论 (10 条评论)

发布
用户头像
果然是技术人员,为啥要分析那么多,买最贵的就行了
2020 年 07 月 30 日 12:20
回复
用户头像
还能这样?!
2020 年 06 月 05 日 18:33
回复
用户头像
如果把京东的链接去掉,可能让文章更加倾向于数据分析。
2020 年 05 月 30 日 14:21
回复
好勒,这就改,谢谢指正。
2020 年 05 月 30 日 14:37
回复
用户头像
送“芭比粉”口红给女朋友的直男们可以用技术解决“世界难题”了。
2020 年 05 月 30 日 13:05
回复
是的,丁老师,求推荐吖!(为什么这个评论加不了表情呢?)
2020 年 05 月 30 日 13:07
回复
首页推荐啦。
2020 年 05 月 30 日 18:33
回复
辛苦老师。
2020 年 05 月 30 日 21:20
回复
用户头像
建议添加封面图
2020 年 05 月 29 日 10:01
回复
好的,老师,下次一定。
2020 年 05 月 29 日 15:33
回复
没有更多了
不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。