python 之 「奶茶名字」的词云展示

用户头像
Sicolas Flamel
关注
发布于: 2020 年 05 月 06 日

写在前面



本文所说的“奶茶”是指在说明奶茶店的以奶茶为代表的诸多饮品,并不单独区分强调“珍珠奶茶”、“茉莉花茶”等。开篇明义,避免抬杠。



奶茶=奶+茶。只是变换了奶的种类和茶的种类,排列组合就有了丰富多彩的诸多饮品。



为什么有那么多人喜欢喝奶茶呢?

理论上,白开水才是最解渴的。

奶茶除了解渴以外还能满足其他需求,比如:

它比水好喝多了;

“啵啵”、“抹茶”等等词的运用让名字看起来就很想尝试一下;

逛街不想浪费空着的手、就是喜欢捧个啥;

有的仅仅是因为在人群中多看了它一眼,就想占有它,虽然这样也很容易踩雷;

颜值高、拍照好看从众打卡网红饮品;

谁发明了集点卡?集够了可以兑礼品或一杯奶茶;

我的小伙伴都在喝,氛围刚刚好......



不管是因为什么吧,这都不重要。只是我很久没碰过奶茶,不禁有点想念那些可可爱爱作作的奶茶名字。所以在本文的前半部分聊聊我和奶茶的缘分,后半部分展示充满波折的用python爬取奶茶店饮品菜单的思路及部分代码。






起初,不管是“年销量可以绕地球5圈”还是“你是我的优乐美,这样就可以把你捧在手心里了”(原来土味情话这么早就流行了?),都成功地让我记住了有这么一个产品。所以一开始我对奶茶的印象就类似于南方黑芝麻糊、维维豆奶的冲泡型饮品,一年喝的频率不超过10次。



再后来,不知道从哪了解到“植脂末”是减肥杀手。而我又在奶茶盒子上看到了这三个字,于是几乎断掉。也许就一年喝一次的样子。



奶茶摄入的突然增加,是在大学。离得近的有 一点点、甜啦啦、蜜雪冰城,远一点的有卡旺卡、肥西路不记得名字的酸奶店。而我的上铺,这个启发了我螺蛳粉等诸多美食的人也无疑是我的奶茶启蒙者。



回顾我对奶茶的观感,和中国奶茶行业发展是非常吻合的。在1990-1995年是粉末阶段,奶茶既不含奶也不含茶,就是粉末冲泡。在1995-2016年属于街头阶段,开始有茶末茶渣和鲜奶混合物。再到2015年以后,设备日益专业化、标准化,茶叶也开始变得考究,配料上除了鲜奶还有水果等,样式更多样化,奶茶行业逐渐高端化,从街头开到了大型商场里面。(参考iiMedia Research)



如果和喜欢喝奶茶的小伙伴一起出门,可以点杯颜值高又可以缓解口渴为逛街续航的饮品。点不同的饮品,互相品尝不同的味道,揭开菜单里奇妙名字的真面目,就很快乐。吃货的快乐就是这么朴实无华。



有的饮品料足、新鲜,口感自然会比较惊艳,也会让人忍不住在特殊的日子买杯奶茶弥补一下生活的仪式感。



我还记得我第一次尝到“爆爆珠/爆爆蛋”的新奇感受,皮是软的,咬破以后里面又有微微酸味的浆流出,混合着奶茶的甜,绝了。公寓门口酸奶捞里也有这个珠珠,但是没什么味道。类似口感的水果是姑娘果/灯笼果。



争议比较大的配料,是“珍珠”。有的人属于一点都不碰的,有的人属于“无珠不欢”的,而有的人则无所谓。我一开始是完全排斥珍珠的,因为它容易粘牙,后来不知道从什么时候开始,就克服掉了这种心理,觉得珍珠是个消磨时间的吃物。原本一杯没有珍珠或者任何配料的奶茶,可以在5分钟左右喝完,如果有了珍珠这么费牙的东西,我可以喝一路或者喝半个小时。我记得有的奶茶店有非常细小的珍珠,就很体贴的照顾到了不同珍珠接受程度的受众。



作为一名吃北方甜粽子和甜口味晋糕长大的山西人,可以吃得惯咸口豆腐脑,但是不太习惯咸口的饮品,比如芝士奶盖。奶盖原本是个增加口感丰富度的存在,可是如果是芝士奶盖,就会喝一口就饱。





喜欢吃椰果的同学大概会比较喜欢吃漳州四果汤。不同家做出来的口味也不一样。有的懒一点的就直接是冰沙加配料,有的是冰糖水,还有的汁就是烧仙草了。漳州四果汤里有一经典配料如上图,口感非常像椰果。



奶茶里的个性化定制:前面说过,奶茶=奶+茶。而菜单上已有的大概率是已经配好的。那么在已经给定的几种搭配类型下,我们可以选择加各种配料:珍珠、芋圆、椰果、坚果碎、波霸......。而茶也是很微妙,茶文化博大精深,这也就导致了茶的品种不一样,最后口感和口味都千差万别。



信息不对称:奶茶店最大的问题就是自家产品原料添加剂的不透明。如果我知道你们用的到底是奶精还是牛奶,我也会愿意为那几块钱成本买单。而且我也会觉得你们家产品更健康,然后成为你们的忠实用户。就好像,我之前一直视为猛虎的“植脂末”在线下直接购买时就没怎么考虑过它的存在,就想喝就喝,想买就买了。可是,它真的不存在了吗?未必。



有些店已经在利用我们喜欢养生的心态挣钱了,他们会在饮品下备注:美容养颜,或者其他神奇的功效。他们也更是喜欢鼓吹自己的原料都是最原生态、最天然、最健康的。如何在不引起消费者反感的情况下做到这一点呢?这对商家来说是个非常大的挑战。很多时候我们是被迫佛系,假装不在意健不健康长不长痘罢了。



反客为主:你有没有开一家奶茶店的梦想?不同于环游世界那么庞大,你可以从体验每一家不同风格的店面开始,思考如果自己做主,要打造什么样风格的店面?想要为顾客提供最具价值的点在哪?是某种口味?是价格上的亲民接地气?还是心理上的满足?又会采用怎样的营销手段?



入股奶茶店,也要考虑好跨界打劫的可能性。不提已有的店家,光是现在看到的就已经有一定的数量了。奶茶店的覆盖顾客究竟还有没有剩余?如果星巴克也开始认真做奶茶了怎么办?



再比如,奶茶、咖啡、不用说话的单人公共空间或小范围的独处空间、书、甜品蛋糕、便利贴-胶带-书签等手账小玩意儿、文化IP、创意等文艺色彩浓重的要素,两两组合都可以成为一家新的店。有的组合光是在脑海里想想就觉得很美好。而市场中的佼佼者无疑在其中某几个方面会做的非常到位,让你无路可走。



尽管如此,我还是愿意做个梦,几十年后,在樱花飘落的某个街角,你一抬头,会发现一家关于“小匚”的店,不知道在卖着什么东西,只是看了一眼,就忍不住踏了进去。



来自一位挑剔的奶茶爱好者强烈推荐奶茶店list:

茶颜悦色

茶百道

卡旺卡



奶茶大概起源于爱喝茶的城市。一些没听过的牌子可能是因为它专注于本地,向外地拓展速度比较保守,如茶颜悦色。第一次去长沙被店里随时都能排起长队惊呆了,那时的我根本不知道奶茶店可以做到这么受欢迎。江湖也一直流传着这些地方头部品牌的传说:没喝过XX就不算到过XX。



2019年到2020年的跨年夜,学校对面有家小岛治茶买一送一,从晚上6点90左右到9点都排着长队(特殊背景是学校当天晚上有跨年活动),叫号估计点一杯大概要等1个半小时,他们家的“抹茶坚果岛”还不错。



专业瞎扯:奶茶店的盈利基础说白了也是通过规模压低成本,然后通过品牌形成自己的核心竞争能力。奶茶店的竞争壁垒并不高,同时也说明竞争非常激烈。眼看它起高楼,眼看它宴宾客,眼看它楼塌了。



奶茶店的供应链运营决定了生鲜水果、各种配料的新鲜程度和口感,直接关系到消费者再一再二还再三的忠实消费行为。



一个城市多家店又带来了配送方面的运筹问题。智慧城市里,奶茶的配送和制作会不会实现专人专品的营销和配送服务?同一栋楼,做的是一种风格,用的是一类包装;换另一个场景,比如年轻人的派对,又是另一种包装。这种不同风格间的切换,可以通过新型的技术手段和设计人才来平衡成本与创意。






后半部分



遇到问题时我舒舒服服的躺下了,留下了靠谱的部分。



首先选取合适的信息源。家里这边奶茶店比较少,只有43家,还有一多半是别的店捎带有个饮料是奶茶。



所以好奇的我把目光投向了大众点评网上海市的奶茶店里的饮品。



工具:

Anaconda下面带的Jupiter Notebook



思路:



1 get一份奶茶店的id:

爬取搜索页面的结果,也没有涉及复杂的寻找隐藏url的过程。



2 通过id构造每家店的推荐菜url:

http://www.dianping.com/shop/{id}/dishlist/{p123...}

这里面夹了一个小问题,就是判断这家店的推荐菜有多少页,正则表达式匹配即可。





写好一个函数爬取每家店的菜品,然后通过一个for循环遍历id,那么理论上就可以完成了所有店所有菜品的爬取。



4 生成词云





下载一个好看点的饮料杯杯,后面要用(numpy.arrap(Image.open(图片路径)),把它作为词云背景。





导入第三方库WordCloud。

然后生成饮品列表。





手动去掉了可疑的名字(大概是一家牛蛙店,在一群美美的奶茶名字中突然出现“盐焗乳鸽”真是大煞风景)。去除的方式也是很蠢了,竟然要这样一个个的点。



最后一步,通过调用WordCloud生成。





得到:





遗憾:

有两个可疑之处:1是奶茶店没爬完,根据探索阶段的店量,最后得到的600多家店还不到一半;2是奶茶店内的单品爬取格式匹配出现以下问题,百度到的结果看是大众点评的反爬机制被触发了,可是我恢复一部分发现还是很奇怪。







完整代码链接:https://pan.baidu.com/s/1hdas8mp2I1mzCNuIS-7QOA 提取码:h2cc






题图:自制





END



发布于: 2020 年 05 月 06 日 阅读数: 43
用户头像

Sicolas Flamel

关注

进一寸有进一寸的欢喜 2019.07.22 加入

我只不过是一位在海滩上贪玩的拾贝者。 更多非技术类文章在微信公众号:小匚,欢迎关注。

评论

发布
暂无评论
python 之 「奶茶名字」的词云展示