写点什么

基于小浣熊办公场景的「大数据集分析」

作者:悟空聊架构
  • 2024-07-08
    湖北
  • 本文字数:8145 字

    阅读完需:约 27 分钟

你好,我是悟空。

一、前言

我是一名高级数据分析师,在日常工作中经常会分析很多的案例数据,在我的经验当中,通过这些数据分析,可以为客户带来很多方面的价值和好处。我这里可以举三种简单的案例来说明数据分析的威力:


  • 洞察和决策支持:比如电商的交易场景,通过数据分析揭示数据背后的趋势、模式和关联,帮助客户更好地理解市场、客户交易行为。

  • 降低成本:比如企业购买的云服务产品场景,通过数据分析识别出服务器的资源占用率,帮助客户优化资源配置,降低成本。

  • 提升客户体验:比如零售场景,通过数据分析识别出那些爆款商品,然后调整商品的摆放位置以及优惠策略,提升客户满意度和忠诚度。


随着 AI 的越来越普及,在各个领域,大模型遍地开会,各个企业也会将大模型集成到现有的企业系统和流程中。不同领域通常会根据其特定的数据特征、问题复杂性和应用需求,选择或开发不同类型的大模型。


商汤科技的办公小浣熊,基于商汤大语言模型的大模型原生数据分析产品,它可以通过用户的自然语言输入,结合商汤大模型的能力,自动将数据转化为有意义的分析和可视化结果。

二、商汤小浣熊简介

根据官网的介绍,我们可以看到商汤小浣熊有很多特点和优势。

2.1 简介

办公小浣熊是基于商汤大语言模型的大模型原生数据分析产品,它可以通过用户的自然语言输入,结合商汤大模型的能力,自动将数据转化为有意义的分析和可视化结果。

2.2 产品优势

  • 操作简单、交互友好:基于日日新大模型上下长文本理解能力,可进行多轮次场景化的对话交流。

  • 支持各种格式数据源:支持上传多种格式的数据源,包括 xls/xlsx/csv/txt/json 等。

  • 可多数据源关联分析:将多个不同格式数据源进行关联分析。

  • 数据分析正确率:精度表现居于业内领先水平。

  • 产出多种格式可视化图表:能自动生成表格、柱状、饼状、折线、雷达、热力等多种格式图表,轻松实现分析结果可视化,并支持下载导出。

2.3 应用场景

项目管理:通过整合关联分析、一键式生成可视化图表等,辅助项目经理解决多数据源处理、敏捷管理、成本管控、交付工时排期等多种难题。


采购管理:通过整合关联分析,帮助采购人员更精准高效的进行成本控制、供应商管理及开发、库存管理、采购计划等。


市场分析:通过对历史报表、行业趋势、友商报表等的组合关联分析,快速制定更科学可行的销售或运营计划。


宏观分析:基于 AI 的理性数据分析能力,关注总量指标、相对指标、结构性指标等,让宏观分析更具准确性、系统性、时效性和适用性。

三、场景一:对淘宝用户行为进行大数据分析

3.1 数据分析背景

3.1.1 业务背景

中国互联网在过去十多年的发展中经历了从 PC 端购物向智能手机端购物的转变。随着智能手机普及,用户的购物行为逐渐迁移到了移动设备上。这次我们需要对这些用户行为进行分析,实施个性化和差异化的运营策略,以达到降低成本的目标。


数据分析师在团队中占有很重要的地位,这次数据分析中我们的团队成员如下。

3.1.2 团队背景

  • 数据库管理员:管理数据库表的创建、权限、导入数据等。

  • 技术人员:对商城系统的开发和运维。

  • 运营人员:根据数据分析报告展开有针对性的运营活动,提供个性化、差异化的运营策略,达到降低成本的目的。

  • 数据分析师:对电商 APP 的用户行为进行分析,提供有价值的分析报告,提供给运营人员参考方案。

3.1.3 团队的痛点

后台统计到 APP 的访问量很高,但是用户的成交量不高,商城的收益远低于服务器的维护成本,如何提高用户的成交量呢?


作为数据分析师,经常需要深入分析电商用户的行为,根据分析结果制定精准的运营活动,实施个性化和差异化的运营策略,以达到降低成本的目标。

3.2 分析目标

数据运算:分析每天的浏览次数以及每天的浏览人数。

趋势分析:每天的用户行为趋势。

预测性分析:基于用户行为趋势预测后续一周中,工作日的用户浏览量。

比较分析:比较两个周末的用户行为数。

关联型分析:分析用户每天的行为,哪些时间段最活跃。

3.3 真实数据导入

数据来源:淘宝的真实用户购物行为数据集,共 10 万数据量,文件容量 8.4MB。文件可以从阿里云天池下载,数据是公开的。


本数据集包含了 2017 年 11 月 25 日至 2017 年 12 月 3 日之间,有行为的约 10 万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和 MovieLens-20M 类似,即数据集的每一行表示一条用户行为,由用户 ID、商品 ID、商品类目 ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:


3.4 数据清洗

数据清洗

3.4.1 分析思路

因数据集中包含异常值:在 2017-11-25 之前或在 2017-12-04 之后的数据,这些数据需要先进行清理。


如果让我自己写 python 进行数据清洗,我需要先判断用那一列进行过滤,但是如果用小浣熊,它会帮我确定用哪个字段进行过滤清洗,所以我们只需要提需求就行,提示词如下。


提示词:分析之前先帮我清理异常值:在 2017-11-25 之前或在 2017-12-04 之后的数据。

3.4.2 实操内容

与办公小浣熊对话,输入上述提示词,它会帮我清洗数据。


小浣熊清理完数据后,还会温馨提示是如何清洗数据的:数据已根据“create_date”列进行了过滤,现在只包含在 2017-11-25 和 2017-12-04 之间的记录。


3.5 数据运算

第一个要分析的是每天的浏览次数以及每天的浏览人数。


该数据的作用如下:


  • 理解用户行为。

  • 评估网站性能。

  • 优化用户体验。

  • 营销策略制定。

  • 资源配置和管理。

3.4.1 分析思路

提示词:请帮我分析每天的浏览次数以及每天的浏览人数

3.4.2 实操内容

通过与办公小浣熊对话,它会快速帮我统计出来。



办公小浣熊分析出来的每日浏览次数和每日浏览人数如下面表格所示:


3.5.3 应用效果

用户行为模式识别:通过分析每天的浏览次数和浏览人数,能够识别用户的访问模式,了解用户在一周中的访问规律。


提高用户参与度:通过在高峰时段(比如周末)发布新内容和活动,可以吸引更多用户参与,增加浏览次数和用户黏性。


资源管理:根据访问数据合理配置服务器资源,保证高峰期的稳定运行,同时优化成本。

3.5.4 用户价值

提升用户体验:通过分析用户行为数据,优化网站内容和服务,提高用户在访问过程中的体验和满意度。

3.6 趋势分析

趋势分析就是通过看数据的长期变化,找出一段时间内事情的发展方向。

3.6.1 分析思路

我们可以让办公小浣熊接着上面的结果进行趋势分析。


提示词:帮我分析下每天的用户行为趋势。

3.6.2 实操内容

与小浣熊对话,输入上述提示词,它会帮我快速生成趋势图,非常直观,而且还贴心的给出了趋势图的结论:


上图展示了 2017 年 11 月 25 日至 12 月 3 日之间每天的用户行为次数。从图中可以看出,用户行为在这段时间内有所波动,其中 2017 年 12 月 2 日和 3 日的行为次数较高。


3.7 比较分析

3.7.1 分析思路

临近双十二这样的大促活动,电商平台通常会迎来高峰期的流量和销售,我们可以比较两个周末的用户行为数,来看看双十二的活动是否对流量有增长。


如果我们自己写 python 代码的话,需要确定哪一天是周末,而小浣熊会帮我们分析出哪一天是周末,然后进行比较。所以我们的提示词就变得相当简单。


提示词:比较两个周末的用户行为数。

3.7.2 实操内容

通过与小浣熊对话,确实可以看到 12 月的第一个周末比 11 月底的周末的流量要高很多,符合数据的分析结果。


从这些数据中可以看出,2017 年 12 月 2 日和 12 月 3 日的用户行为数明显高于 11 月 25 日和 11 月 26 日。


3.8 关联型分析

3.8.1 分析思路

如果我们自己写 python 代码的话,得事先知道用哪个字段才能做分析,但是如果用小浣熊,它会帮我们确定哪个字段,所以我们的提示词就非常简单了。


提示词:分析用户每天的行为,哪些时间段最活跃。

3.8.2 实操内容

通过与小浣熊对话,输入上述提示词,小浣熊就能很快做数据分析。还会告诉我是如何分析的。



小浣熊很智能,它知道用这个字段 create_hour 列来统计每个小时的活动数量。



从上图中,我们可以明显地看到用户在一天中的活动模式:


  • 凌晨 0 点到 6 点,用户活动相对较少。

  • 从上午 6 点开始,用户活动逐渐增加,直到上午 9 点到达一个小高峰。

  • 从上午 9 点到下午 1 点,用户活动有所下降。

  • 下午 1 点到晚上 10 点,用户活动逐渐增加,并在晚上 21 点左右达到最高峰。

  • 晚上 10 点后,用户活动逐渐减少。


这些信息对于理解用户行为模式、优化资源分配或进行市场营销活动等都非常有价值。

3.8.3 应用效果

  • 用户行为模式识别:通过分析淘宝用户每天的行为数据,可以明确用户在一天中的活跃时间段,比如上述小浣熊提供的结论。然后还能识别出用户活动的高峰和低谷,比如高峰期是晚上 9 点,这些数据有助于了解用户的使用习惯和偏好。

  • 优化内容发布时机:了解用户活跃时间段后,淘宝 APP 可以在用户最活跃的时段发布内容、推送通知或进行促销活动,比如淘宝直播,从而提高内容的曝光率和用户参与度。

  • 资源配置优化:根据用户活跃时间段,优化服务器资源配置。在用户活跃高峰期,增加资源以保证系统的稳定性和响应速度,比如增加服务器资源和网络带宽等;在低谷期,可以减少资源投入,降低运营成本。

  • 个性化服务提升:基于用户活动模式,提供个性化的服务和体验。例如,在用户活跃时间段内提供实时客服支持,提高用户满意度和粘性。

3.8.4 用户价值

  • 提升用户体验:在用户活跃时段提供优质服务和内容,用户能够更便捷地获得所需信息和服务,提升整体体验。比如增加智能客服、人工客服的数量,提升用户体验。

  • 增加用户参与度:在用户活跃高峰期推送相关内容和活动,提高用户的参与度和互动率。

  • 增强用户忠诚度:通过精准的时段推送和服务优化,增强用户对平台的满意度和忠诚度。

  • 提高转化率:在用户活跃时段进行精准营销和促销活动,增加用户点击和购买的概率,提高转化率和销售额。

3.9 漏斗分析

3.9.1 分析思路

用一个漏斗图,按照用户分组,分析用户行为:购买行为(buy),加入购物车(cart)、喜欢商品(fav)、浏览商品(pv)




这是一个按用户分组的漏斗图,用于分析不同用户行为(浏览商品、喜欢商品、加入购物车和购买行为)。


  • 横轴表示不同的用户行为。

  • 纵轴表示每种行为对应的用户数量。


从图中可以看出,浏览商品的用户数量最多,其次是喜欢商品的用户,然后是加入购物车的用户,最后是进行购买行为的用户。


这个漏斗图可以帮助我们了解用户从浏览商品到最终购买的转化情况,以及在哪个阶段用户最容易流失。

3.9.1 应用效果

  • 提升转化率:通过优化每个阶段的用户体验,可以显著提高从浏览商品到最终购买的转化率,减少用户流失。

  • 识别高流失阶段:

  • 浏览商品 -> 喜欢商品:这个阶段流失率高,说明用户对商品的兴趣不够强烈,商品展示和描述需要优化。在这里笔者认为详情包含实物图和规格介绍是比较好的。

  • 喜欢商品 -> 加入购物车:高流失率意味着用户对价格或其他购买条件有疑虑,可以通过优化价格策略或提供更多信息来降低流失。

  • 加入购物车 -> 购买行为:这是最关键的转化阶段,流失率高,用户可能在支付方式、运费、或结算流程上遇到问题。在这里笔者认为商品包邮就能很大的提高购买行为。

  • 个性化推荐和动态定价:在用户浏览商品后,根据他们的兴趣推荐相关或更受欢迎的商品,提高用户喜欢商品的比例。根据用户行为和兴趣,提供个性化的折扣或优惠,提高加入购物车和购买的转化率。

  • 提升结算和支付体验:提供多种支付方式,满足不同用户的支付习惯。比如微信、支付宝、银行卡,当然淘宝不支持微信支付。

  • 实时客服支持:客服还是很重要的,如果在商品上有些疑问,如果能快速得到回应和解答,也许可以促成交易。

3.10 小结

通过办公小浣熊对真实用户行为数据的分析,我们可以理解用户行为模式、优化资源分配或进行市场营销活动。通过这些分析,我们可以优化一些电商大促内容,比如双十二做一些满减活动,促进用户将更多商品加入购物车;另外在晚上 8 点~10 点,还可以做些秒杀活动,促进交易的转化。


整体使用上来说,小浣熊有以下优势:


  • 对字段的识别和理解非常准确。

  • 绘制图表快、准、美。

  • 完整的分析过程。

四、场景二:大型商超经营状况分析(5 种分析方法)

4.1 数据分析背景

某企业在武汉有三家商超,分别为:东西湖分店、汉阳分店、江夏分店。


作为老板,想要知道三家店的年收入总额、月销售额趋势,并识别任何显著的销售增长或下降,并预测下一年每个月的销售趋势。通过这些数据分享,老板可以做以下事情:


  • 分析成功因素,借鉴这些成功经验

  • 提升低收入门店的业绩

  • 优化商品和服务

  • 市场营销策略

  • 资源配置和支持

  • 区域市场拓展

4.2 分析目标

比较三家店铺的年终总销售额,确定哪家店铺的年收入最高。


观察三个店铺的月销售额趋势,并识别任何显著的销售增长或下降。


分析三家店铺在夏季月份(7, 8 月)的销售数据,看是否存在季节性销售模式。


如果东西湖分店在 11 月、12 月和 1 月的销售额突然增加,尝试归因其可能的原因。


基于汉阳分店过去一年的销售数据,预测下一年每个月的销售趋势。

4.3 数据导入

三个分店的数据已经脱敏,且只保留最关键的经营数据。


将三个分店的经营数据导入到办公小浣熊中。


4.4 数据分析

4.4.1 比较分析法

4.4.1.1 分析思路

使用比较法:比较三家店铺的年终总销售额,确定哪家店铺的年收入最高。


比较法:通过对比两个或多个数据集之间的差异,比较法揭示数据背后的模式或异常。它常用于分析不同时间段或不同群体之间的性能差异。

4.4.2.2 实操内容

提示词:比较三家店铺的年终总销售额,确定哪家店铺的年收入最高。



江夏门店的年终总销售额为 1096 千元,汉阳门店的年终总销售额为 1523 千元,东西湖区门店的年终总销售额为 1769 千元。因此,东西湖区门店的年收入最高。

4.4.1.3 应用效果

通过小浣熊的提供的结论,我们可以深入分析东西湖门店的成功因素,如位置、人流量、营销策略、商品结构等,找出其优势,借鉴这些成功经验,并将其应用于其他门店。

4.4.1.4 用户价值
  • 提供三个门店销售数据分析,帮助管理层及时做出调整和应对市场变化。


提高对市场动态的敏感度,优化销售和促销活动的时机。

4.4.2 应用观察分析法

4.4.2.2 分析思路

应用观察分析法:观察东西湖店铺的月销售额趋势,并识别任何显著的销售增长或下降。


观察分析法:这种方法侧重于观察数据中的模式和趋势,尤其是那些可能影响结果的变量。它帮助分析师理解数据背后的动态和关联。

4.4.2.2 实操内容



从东西湖区门店的月销售额趋势图中可以看出,该店铺在一年中的销售额波动较大。具体来看:


  • 1 月至 2 月销售额相对稳定。

  • 3 月出现了显著的销售下降。

  • 4 月销售额略有回升。

  • 5 月和 6 月销售额继续小幅下降。

  • 7 月销售额出现显著增长,达到一年中的最高点。

  • 8 月销售额有所下降,但仍保持在较高水平。

  • 9 月至 12 月,销售额逐渐回升,尤其在 12 月达到了接近全年最高点的水平。


东西湖区门店在年中(特别是 7 月)出现了显著的销售增长,而在年初和年中后期则有一定的波动。


我们继续向小浣熊提问:这个结论告诉我们什么呢?


  1. 季节性影响:东西湖区门店的销售额在一年中的不同月份表现出明显的波动,这可能受到季节性因素的影响。例如,某些月份可能由于节假日或季节性需求而导致销售额增加。

  2. 市场反应灵敏:门店能够迅速响应市场变化,如在年中某个时期销售额的显著增长,可能反映了对市场趋势的快速适应或成功的营销活动。

  3. 经营策略的调整:在不同时间段内销售额的波动可能表明门店在不断调整其经营策略,以应对市场变化和消费者需求的变化。

  4. 潜在风险和机会:销售额的波动也揭示了潜在的商业风险和机会。例如,销售额的下降可能表明需要改进的产品或服务,而销售额的增长则可能表明成功的市场定位或营销策略。

这些信息对于制定未来的商业策略和营销计划非常重要,可以帮助门店更好地理解其经营动态,并作出相应的调整以提高业绩。

4.4.3.3 应用效果

通过比较三家店铺的年终总销售额,可以清楚地看到东西湖店铺的整体业绩最好。这有助于企业了解各个店铺的表现,制定相应的策略。


东西湖的大型商超比较少,所以该店铺的人流量比较大,而且东西湖有一个体育中心,两条地铁,带动了当地的经济发展。

4.4.3.4 用户价值
  • 帮助企业确定资源分配和投资重点。

  • 可以识别表现较好的店铺(东西湖门店),分析其成功经验并在汉阳店和江夏店铺中推广。

4.4.3 细分分析法

4.4.3.1 分析思路

进行细分分析:分析三家店铺在夏季月份(7, 8 月)的销售数据,看是否存在季节性销售模式。


细分分析:通过将数据分成更细小的组,细分分析允许分析师更深入地理解不同子集的行为。这种方法适用于针对特定群体制定定制化策略。

4.4.3.2 实操内容

提示词:分析三家店铺在夏季月份(7, 8 月)的销售数据,看是否存在季节性销售模式。



小浣熊提供的结论如下:


在夏季月份(7 月和 8 月)的销售数据分析中,我们发现:


  • 江夏门店在这两个月的销售总额为 189 千元。

  • 汉阳门店在这两个月的销售总额为 283 千元。

  • 东西湖区门店在这两个月的销售总额为 322 千元。


从这些数据中可以看出,三家店铺在夏季月份都实现了较高的销售额,尤其是东西湖区门店,其夏季销售额最高。这表明在夏季月份可能存在季节性的销售模式,多家店铺的销售额在这一时期都有所增加。这种季节性模式可能与夏季特定的消费习惯、节假日促销活动或其他季节性因素有关。

4.4.3.3 应用效果

分析三家店铺在夏季月份(7、8 月)的销售数据,可以揭示季节性销售模式。特别是在夏季销售高峰期,可以针对性地进行资源配置和营销活动。


比如暑假的时候,学生放假了,都是在家里吃饭的,会增加店铺的食材和酒水的收入。

4.4.3.4 用户价值
  • 帮助企业在高销售季节最大化收入,并在低销售季节优化成本。

  • 识别季节性需求,调整产品和服务的供应,满足客户需求。

4.4.4 归因分析

4.4.4.1 分析思路

实施归因分析:三家店铺在 12 月、1 月、2 月的销售额突然增加,尝试归因其可能的原因。


归因分析旨在识别导致特定结果的关键因素,广泛应用于评估营销活动的效果和优化预算分配。

4.4.4.2 实操内容

提示词:三家店铺在 12 月、1 月、2 月的销售额突然增加,尝试归因其可能的原因。



小浣熊提供的结论如下:


  1. 节假日促销活动:冬季,特别是 12 月,通常是一年中最重要的购物季节,因为有圣诞节、新年等大型节日。这些节日通常会带来大量的促销活动,吸引消费者进行更多购物。

  2. 季节性需求:冬季可能有一些特定的商品或服务需求增加,比如冬季服装、取暖设备等,这可能导致销售额的增加。

  3. 年终总结和奖励:对于一些企业或机构,年底可能是总结全年业绩和发放奖金的时期。这可能导致消费者在收到奖金后增加消费。

  4. 新年准备:1 月和 2 月通常是新年的准备时间,消费者可能会购买新年相关的商品,如装饰品、食品等,这也可能促进销售额的增长。

  5. 特殊活动或节日:除了普遍的节假日外,还可能有一些地区性或特殊节日在这个时间段,这也可能促进消费。


这些销售额的增加可能是由多种因素共同作用的结果,包括节假日促销、季节性需求、年终奖励和新年准备等。

4.4.3.3 应用效果

对 12 月、1 月和 2 月的销售额突然增加进行归因分析,可以帮助企业了解销售增长的驱动因素,如节假日、促销活动等。


确实,在年底的时候有圣诞节、元旦、春节,元宵节,通常会推出各种活动以吸引消费者,提升销售额。

4.4.3.4 用户价值
  • 识别销售增长的关键驱动因素,有助于在未来的相似时段复制成功经验。

  • 提供针对性的营销和促销策略,提升销售业绩。

4.4.5 预测分析法

4.4.5.1 分析思路

执行预测分析:基于汉阳店过去一年的收入数据,预测下一年每个月的收入趋势,绘制趋势图。


预测分析:使用历史数据预测未来事件,预测分析适用于多种场景,如销售预测、库存管理和市场趋势分析。


我们使用 ARIMA 模型进行预测。ARIMA 模型(AutoRegressive Integrated Moving Average model,自动回归综合滑动平均模型)是一种用于时间序列分析和预测的统计模型。它结合了自回归(AR)模型、差分(I)和移动平均(MA)模型的特点,以捕捉数据的时间依赖结构。

4.4.5.2 实操内容

提示词:使用 ARIMA 模型进行预测,基于汉阳店过去一年的销售数据,预测下一年每个月的销售趋势。绘制趋势图。



4.4.3.3 应用效果

基于汉阳店过去一年的收入数据,预测下一年每个月的收入趋势,并绘制趋势图,可以帮助企业提前做出计划和准备。


汉阳属于武汉三镇,但是经济发展比较慢,通过预测下一年的收入趋势,追求稳定发展即可。

4.4.3.4 用户价值
  • 提供数据驱动的决策支持,帮助企业制定更准确的销售和运营计划。

  • 提高企业对未来市场的预判能力,减少不确定性,优化库存管理和人力资源配置。

4.6 小结

通过小浣熊对以上多维度的分析方法,企业可以更全面地了解各个店铺的销售表现和趋势。这些分析工具和方法不仅提供了清晰的销售数据洞察,还帮助企业制定更有效的营销策略和运营计划。


发布于: 2024-07-08阅读数: 23
用户头像

用故事、大白话讲解Java、分布式、架构设计 2018-05-06 加入

公众号:「悟空聊架构」 【个人博客】www.passjava.cn 【开源项目】基于 SpringCloud 的一套面试刷题系统 【Github】https://github.com/Jackson0714/PassJava-Platform

评论

发布
暂无评论
基于小浣熊办公场景的「大数据集分析」_AI_悟空聊架构_InfoQ写作社区