数据分析实际案例之:pandas 在餐厅评分数据中的使用
简介
为了更好的熟练掌握 pandas 在实际数据分析中的应用,今天我们再介绍一下怎么使用 pandas 做美国餐厅评分数据的分析。
餐厅评分数据简介
数据的来源是 UCI ML Repository,包含了一千多条数据,有 5 个属性,分别是:
userID: 用户 ID
placeID:餐厅 ID
rating:总体评分
food_rating:食物评分
service_rating:服务评分
我们使用 pandas 来读取数据:
复制代码
1161 rows × 5 columns
分析评分数据
如果我们关注的是不同餐厅的总评分和食物评分,我们可以先看下这些餐厅评分的平均数,这里我们使用 pivot_table 方法:
复制代码
然后再看一下各个 placeID,投票人数的统计:
复制代码
复制代码
如果投票人数太少,那么这些数据其实是不客观的,我们来挑选一下投票人数超过 4 个的餐厅:
复制代码
复制代码
选择这些餐厅的平均评分数据:
复制代码
124 rows × 2 columns
对 rating 进行排序,选择评分最高的 10 个:
复制代码
我们还可以计算平均总评分和平均食物评分的差值,并以一栏 diff 进行保存:
复制代码
将数据进行反转,选择差距最大的前 10:
复制代码
计算 rating 的标准差,并选择最大的前 10 个:
复制代码
复制代码
本文已收录于 http://www.flydean.com/02-pandas-restaurant/
最通俗的解读,最深刻的干货,最简洁的教程,众多你不知道的小技巧等你来发现!
欢迎关注我的公众号:「程序那些事」,懂技术,更懂你!
版权声明: 本文为 InfoQ 作者【程序那些事】的原创文章。
原文链接:【http://xie.infoq.cn/article/1134822e4aac2a9733d0cd841】。文章转载请联系作者。
评论