写点什么

极客大学架构师训练营 大数据架构、Spark、Flink、机器学习、PageRank 算法、神经网络 第 13 次作业

用户头像
John(易筋)
关注
发布于: 2020 年 09 月 08 日

1. 你所在的行业,常用的数据分析指标有哪些?请简述。

笔者曾经任职于阿里巴巴资深无线开发,所以就以电商来讲讲把。



数据大屏

互联网运营常用数据指标

新增用户数

新增用户数是网站增长性的关键指标,指新增加的访问网站的用户数(或者新下载 App 的用户数),对于一个处于爆发期的网站,新增用户数在短期内出现倍增的走势,是网站的战略机遇期,很多大型网站都经历过一个甚至多个短期内用户暴增的阶段。新增用户数有日新增用户数、周新增用户数、月新增用户等几种统计口径。



用户留存率



新增的用户并一定总是对网站(App)满意,在使用网站(App)后感到不满意,可能会注销账号(卸载App),这些辛苦获取来的用户就流失掉了。网站把经过一段时间依然没有流失的用户称作留存用户,留存用户数比当期新增用户数就是用户留存率。



用户留存率 = 留存用户数 / 当前新增用户数



用户留存有时间窗口,即和当期数据比,3天前新增用户留存的,称作3日留存;相应的,还有 5日 留存、7日留存等。新增用户通过可以通过广告、促销、病毒营销等手段获取,但是要让用户留下来,就必须要使产品有实打实的价值。用户留存率是反映用户体验和产品价值的一个重要指标,一般说来,3日留存率能做到 40% 以上就算不错了。和用户留存率对应的是用户流失率。



用户流失率 = 1 - 用户留存率



活跃用户数

用户下载注册,但是很少打开产品,表示产品缺乏粘性和吸引力。活跃用户数表示打开使用产品的用户数,根据统计口径不同,有日活跃用户数、月活跃用户数等。提升活跃是网站运营的重要目标,各类 App 常用推送优惠促销消息给用户的手段促使用户打开产品。



PV

打开产品就算活跃,打开以后是否频繁操作,就用 PV 这个指标衡量,用户每次点击,每个页面跳转,被称为一个 PV(Page View)。PV 是网页访问统计的重要指标,在移动 App 上,需要进行一些变通来进行统计。



GMV

GMV 即成交总金额( Gross Merchandise Volume),是电商网站统计营业额(流水)、反映网站营收能力的重要指标。和 GMV 配合使用的还有订单量(用户下单总量)、客单价(单个订单的平均价格)等。



转化率

转化率是指在电商网站产生购买行为的用户与访问用户之比。



转化率 = 有购买行为的用户数 / 总访问用户数



用户从进入网站(App)到最后购买成功,可能需要经过复杂的访问路径,每个环节都可能会离开:进入首页想了想没什么要买的,然后离开;搜索结果看了看不想买,然后离开;进入商品详情页面,看看评价、看看图片、看看价格、然后离开;放入购物车后有想了想自己的钱包,然后离开;支付的时候发现不支持自己喜欢的支付方式,然后离开... 一个用户从进入网站到支付,完成一笔真正的消费,中间会有很大概率流失,网站必须要想尽各种办法:个性化推荐、打折促销、免运费、送红包、分期支付,以留住用户,提高转化率。



2. Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)

网页排名算法 PageRank

PageRank, 网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创办人 拉里佩·奇(Larry Page)之姓来命名。



PageRank 让链接来 [投票]

PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级。Google 把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根据投票来源(甚至来源的来源,即链接到 A 页面的的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面使其它低等级页面的等级提升。



一个页面的 [得票数] 由所有链向它的页面的重要性来决定,到一个页面的超链接相当于该页投一票。一个页面的 PageRank 是由所有链向它的页面([链入页面])的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。



PageRank 算法

假设一个由4个页面组成的小团体:A, B, C 和 D。如果所有页面都链向A,那么 A 的PR(PageRank)值将是 B,C 及 D的 PageRank 总和。

继续假设 B 也有链接到 C,并且 D 也有链接到包括 A 的3个页面。一个页面不能投票 2 次。所有 B 给每个页面半票。以同样的逻辑,D 投出的票只有三分之一算到了 A 的PageRank 上。

换句话说,根据链出总数平分一个页面的 PR 值。

互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的PR值将只增不减,显然不合理。如下图中C网页就是刚刚说的只有对自己的出链的网页:

为了解决这个问题。我们想象一个随机浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的,于是则此图中A的PR值可表示为:

PageRank 计算公式

P1,P2...Pn 是被研究的页面,M(pi)是链如 Pi 页面的集合,L(pj)是Pj 链出页面的数量,而N是所有页面的数量。

PageRank 值是一个特殊矩阵中的特征向量。这个特征向量为:



d = 0.85





发布于: 2020 年 09 月 08 日阅读数: 49
用户头像

John(易筋)

关注

问渠那得清如许?为有源头活水来 2018.07.17 加入

工作10+年,架构师,曾经阿里巴巴资深无线开发,汇丰银行架构师/专家。开发过日活过亿的淘宝Taobao App,擅长架构、算法、数据结构、设计模式、iOS、Java Spring Boot。易筋为阿里巴巴花名。

评论

发布
暂无评论
极客大学架构师训练营 大数据架构、Spark、Flink、机器学习、PageRank算法、神经网络 第13次作业