写点什么

数据分析的好帮手,小浣熊办公助手!

作者:百里丶落云
  • 2024-07-10
    福建
  • 本文字数:2372 字

    阅读完需:约 8 分钟

数据分析的好帮手,小浣熊办公助手!

Hello,这里是百里,2024 年真的是知识大爆发的一年,过去非常复杂且繁琐的事情,现在在 AI 的加持下,变得非常简单,以往需要大量的知识储备,理论实践的内容,现在只要通过自然语言对话就能实现想要的内容。小浣熊办公助手,短短尝试了几次我就已经爱不释手,几分钟解决了我需要一天甚至更久的工作业务需求。他不像 gpt 是那种大,广,杂的模型,有时不管对不对,为了答案,给你搞了个答案,他更像是就像钢铁侠中的贾维斯一样,能理解你所说,所想,所表达的用意,并给出相应的答案,他像是一个专业的 IT 资深教授,一个非常好的 PM 经理,会充分理解你的需求,并转达给开发人员,理性的给出结果。小浣熊办公助手是一个真正的帮你更好学习,工作私人智能助手。



忆往昔


作为一个数据从业者,依稀在很多年前,大学学习机器学习入门时,学过一个非常经典的案例,鸢尾花逻辑模型推断。记得当时大学老师给留的作业,通过数据清洗,逻辑分析,给出鸢尾花的计算的逻辑模型,并通过测试数据分析模型置信度,那时候大一一脸蒙 B,给 160 多个数据,用 excel 一个个的补充数据。然后 python 也不太熟练,加上数学等逻辑也不太好,吭吃瘪肚的搞了一周才搞定。不过那也是个值得高兴的回忆,要知其然,然后知其所以然。现在 AI 确实降低了很多人的从业门槛,在我看来要感谢数据模型,也要提防数据模型,因为毕竟工具只能辅助业务,不能真正替代业务,‘人’的操作也是关键。


这里我手写一个 KNN,然后对比小浣熊办公助手,一方面是看看提供多少效率,另一方面是回归学习,工作的本质。


什么是 KNN,k 近邻法(k-nearest neighbor, k-NN)是一种基本分类与回归方法,换个解释方法就是,欧氏距离,

通过计算结果的数据,离哪个逻辑结果最近,哪个就更符合逻辑期望。


手工方法

这里是 150 条鸢尾花数据集,已经通过手工手段进行部分数据整理,其中,数据缺失项目,采取平均值补录的方式。

读取处理好的数据文件

import csvimport numpy as np
# 读取CSV文件data = []with open('iris.csv', 'r') as file: reader = csv.reader(file) next(reader) # 跳过标题行 for row in reader: data.append([float(row[0]), float(row[1]), float(row[2]), float(row[3])])
复制代码

通过代码编写欧式距离公式,并进行训练集,测试集分类

# K最近邻算法def predict(X_train, Y_train, X_test):    predictions = []    for sample in X_test:        distances = [np.linalg.norm(sample - x) for x in X_train]        nearest_neighbor = np.argmin(distances)        predictions.append(Y_train[nearest_neighbor])    return predictions    data1 = []with open('iris.csv', 'r') as file:    reader = csv.reader(file)    next(reader)  # 跳过标题行    for row in reader:        data1.append([float(row[4])])
Y = np.array(data1)
# print(Y)
# 划分训练集和测试集k = 3test_size = 0.2train_size = int((1 - test_size) * len(X))print(train_size )X_train = X[:train_size]X_test = X[train_size:]

Y_train = Y[:train_size]Y_test = Y[train_size:]
复制代码

进行模型准确率计算

# 进行预测y_pred = predict(X_train, Y_train, X_test)
# 计算准确率correct = sum(y_pred == Y_test)accuracy = correct / len(Y_test)print(f"Accuracy: {accuracy}")
复制代码

准确率大约是 83%

以上是完全没有助手,以及科学数据包辅助的情况下,手工敲出来的原生 KNN 回归算法的测试案例,从中我们可以看出来,我们需要,良好的代码编写功底,一定数据的处理能力,数学公式的使用理解能力。当然从学习角度讲,我们书写细致无可厚非,但是学习,工作环境就不太适用了。

小浣熊帮我

处理 excel 数据,只需要简单的描述即可,帮我把上传的文件,缺失的数据赋值,并赋值为该列的平均值。

减少了非常多的办公业务场景的计算逻辑,我自己拿 excel 又是函数又是赋值的,大大增加了工作的速度。

测试中遇到了数据缺失,他会自动纠正问题并尝试更新代码,如果描述异常的话,或者数据处于可修复范围,他也会提供建议性改进。

自动帮我补充了缺失数据,不过我要的黄色标注没有出来。

带入正题,KNN 计算数据模型,在真实的业务办公环境中,只需要进行简单的业务描述即可生成复杂的计算逻辑。

这里我只需要通过语言描述,

查询模型准确率

看今朝

在当今社会,快,效率成为了工作的代名词,谁不想有一个稳定可靠且十分专业的帮手辅助自己完成工作任务呢,小浣熊办公助手 通过丰富层次的对话,更专业层次的建议,辅助工作。依然以上述鸢尾花为例,

现在用户提供一个数据模型,让你通过复杂计算,分析用户画像,用户相性。


通过生成的特征图,可以更好的分析用户相性,辅助数据分析。这里以鸢尾花为例,分析出符合该特征数据的用户特征,提供可视化的功能支持。

如图所示,用户属于‘山鸢尾’类型。 省去了大量的计算逻辑模型,同时更快速的提供了领导业务逻辑判断数据支撑。


专业角度的大师

当我们提供一个非常模糊的概念,比如帮我生成一个置信度的折线图,或者说用过以上数据内容帮我怎么怎么样。小浣熊会理解并分析出所需要的内容。并给出合更合理的解释。


给出的合理见解的同时,又清晰的提供了操作步骤,方便排查。


上手视频

因为数据量过大,且描述代码过多我这里进行了简单的数据操作录像,视频已经加速可以放心食用!但是可能因为自然语言描述的差异性,有小小的翻车,可见,虽然对工作中有相当大的帮助,但是首先你得知道你要做什么。

结论

通过体验小浣熊办公助手,这是一个非常对数据分析,数据治理,数据驱动,非常好的办公助手。不仅仅是他的专业,更是因为他更人性化,对业务赋能的简单化。让专业的人更轻松,做更多有意义的事情。让小白,用更简单的对白,进行复杂的数据处理,并提供专业的辅助。

小浣熊将会是我们工作中的不可多得的办公助手,爱上你了。!

发布于: 刚刚阅读数: 8
用户头像

能力越大,责任越大 2020-05-26 加入

python自学患者 某4线小城市,用不到py的python爱好者

评论

发布
暂无评论
数据分析的好帮手,小浣熊办公助手!_AI_百里丶落云_InfoQ写作社区