写点什么

我的数据分析大师 - 办公小浣熊

作者:黑白相间
  • 2024-07-13
    湖北
  • 本文字数:2271 字

    阅读完需:约 7 分钟

我的数据分析大师-办公小浣熊

在科技高速发展的今天,智能 AI 已然悄无声息的融入人们的生活,不断地给人们的生活,工作等方面带来便利。本文给大家介绍商汤科技的小浣熊办公助手在工作中如果便捷,高效的进行数据分析。


一、基本介绍

进入办公小浣熊首页后,我们可以借助这个智能助手对我们需要处理的数据进行各种需求的分析,例如进行数据对比分析,统计分析,或者生成可视化图表等功能,都能够大大提高我们对数据处理的效率。办公小浣熊支持.xlsx/.xls/.csv/.txt/json/word(beta)/pdf(beta)/ppt(beta)/sql(限免)/图片(限免) 等各种不同类型文件的数据分析,如下图所示:


我们将需要分析的数据导入进去,输入想问的问题,就可以对数据进行分类对比分析,或者生成图表得到更加直观的展示。


二、实例展示

2.1 分析湖南各城市 GDP 排行

首先导入湖南统计数据,包含各个城市及其对应的 GDP 产值:


导入数据后,在下面想问的问题说“对比湖南各城市与临近各城市的 GDP,从高到低用柱状图展示”,可以看到小浣熊智能助手会自动生成对应 Python 命令并运行,进行对表格里的数据分析:

import pandas as pdimport matplotlib.pyplot as plt
# 读取Excel文件file_path = '/mnt/data/湖南统计数据.xlsx'sheets = pd.read_excel(file_path, sheet_name=None)
# 检查读取的工作表名称sheets.keys()
# 分别读取两个工作表的数据hunan_data = sheets['湖南']neighboring_cities_data = sheets['临近城市']
# 查看数据结构以确定如何处理hunan_data.head(), neighboring_cities_data.head()
# 提取GDP数据用于比较hunan_gdp = hunan_data[['城市', 'GDP']]neighboring_gdp = neighboring_cities_data[['城市', 'GDP']]
# 合并两个数据集combined_gdp = pd.concat([hunan_gdp, neighboring_gdp])
# 对GDP进行排序sorted_gdp = combined_gdp.sort_values(by='GDP', ascending=False)
# 绘制柱状图plt.figure(figsize=(10, 6))plt.bar(sorted_gdp['城市'], sorted_gdp['GDP'], color='skyblue')plt.xlabel('城市', fontsize=12)plt.ylabel('GDP(亿元)', fontsize=12)plt.title('湖南各城市与临近城市GDP对比', fontsize=14)plt.xticks(rotation=45)plt.tight_layout()plt.show()
复制代码


最后生成效果如下图所示:


2.2 分析中国人均主要农业产品产量

我们先导入中国人均主要农业产品产量数据,有各项不同指标的人均数据:


当我们想分析每年棉花、油料、糖料和猪牛羊肉人均占有量时,只需要对小浣熊提问“用线形图展示出棉花、油料、糖料和猪牛羊肉人均占有量每年的趋势情况”,其生成 Python 代码如下:

import pandas as pdimport matplotlib.pyplot as plt
# 读取Excel文件file_path = '/mnt/data/中国人均主要农业产品产量.xls'df = pd.read_excel(file_path)
# 显示数据框架的前几行,以了解其结构df.head()
# 将数据从宽格式转换为长格式,以便于绘制线形图df_long = df.melt(id_vars=['指标'], var_name='年份', value_name='值')
# 筛选出指定的指标:棉花、油料、糖料和猪牛羊肉人均占有量selected_indicators_new = ['棉花人均占有量(公斤)', '油料人均占有量(公斤)', '糖料人均占有量(公斤)', '猪牛羊肉人均占有量(公斤)']df_selected_new = df[df['指标'].isin(selected_indicators_new)]
# 将数据从宽格式转换为长格式df_selected_new_long = df_selected_new.melt(id_vars=['指标'], var_name='年份', value_name='值')
# 绘制线形图plt.figure(figsize=(15, 10))for index, group in df_selected_new_long.groupby('指标'): plt.plot(group['年份'], group['值'], label=index)
plt.xlabel('年份', fontsize=14)plt.ylabel('人均占有量 (公斤)', fontsize=14)plt.title('中国人均棉花、油料、糖料和猪牛羊肉占有量趋势', fontsize=16)plt.xticks(rotation=45)plt.legend()plt.grid(True)plt.show()
复制代码


效果如下图所示:


我们发现这 4 个指标的数值还是有一定差距,这样只能看出其整体趋势走势,每年具体数值并不明显,而且在数值变化较小的时候基本看不出变化,为了得到更为直观的线形图,我们将数值都加入其中试试,“用线形图展示出棉花、油料、糖料和猪牛羊肉人均占有量每年的趋势情况,并展示出每年具体数值”,其 Python 命令和效果图如下:

# 绘制线形图,并在每个数据点上显示具体数值plt.figure(figsize=(15, 10))
# 对每个指标进行循环,绘制线形图并显示数据点for index, group in df_selected_new_long.groupby('指标'): plt.plot(group['年份'], group['值'], label=index) # 显示数据点 for x, y in zip(group['年份'], group['值']): plt.text(x, y, f'{y}', ha='center', va='bottom')
plt.xlabel('年份', fontsize=14)plt.ylabel('人均占有量 (公斤)', fontsize=14)plt.title('中国人均棉花、油料、糖料和猪牛羊肉占有量趋势', fontsize=16)plt.xticks(rotation=45)plt.legend()plt.grid(True)plt.show()
复制代码


由此我们发现,加上数值后,尽管各指标差距较大,但可以很直观看到每年的具体数值,充分表现了办公小浣熊的便利之处,可以完全根据我们需求进行数据分析。


三、体验小结

初步体验了小浣熊智能助手的数据分析能力,可以发现,这个 AI 模型会自动识别数据不同的指标内容,并且根据用户需求自动生成数据分析的 Python 代码,进而生成用户想要的图表效果。当然,小浣熊强大的数据分析模型远远不止生成图表这么简单的能力,还有更多可以配合数据分析工作的专业能力,能够很好的成为工作中的“数据分析搭子”,提高我们的工作效率,使得数据分析工作更加方便快捷。

用户头像

黑白相间

关注

还未添加个人签名 2023-12-30 加入

还未添加个人简介

评论

发布
暂无评论
我的数据分析大师-办公小浣熊_数据分析_黑白相间_InfoQ写作社区