架构师训练营第 13 周:数据应用(二)
你所在的行业,常用的数据分析指标有哪些?请简述
销售相关
- 客单价、货单价
- 销售周期情况
客户相关
- 新老客判定
- 拉新成本
- 用户画像、用户标签、用户偏好
- 用户浏览轨迹
商品相关
- 商品库存
- 新款销售情况、是否值得继续投入
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法)
简单的说,PageRank 认为,一个网页如果被其他网页引用的越多,则说明越多的网页(其实是网页背后的运营人员)更加信任这个网页,则这个网页的价值越大,反之,越小。有些类似于论文或书的引用,如果一篇论文或一本书被其他论文或书籍引用的越多,说明其被更受大家的认可,价值越大。
Google 搜索引擎使用 PageRank 算法来对搜索结果进行排序的。简单来说,PageRank 由搜索引擎根据网页之间相互的超链接计算作为依据来进行排序的一种算法。通常一个网页里会有跳转到其他网页的链接, 比如 A 网页里有 B 网页的链接,我们称之为 A 给 B 投票,网页的 PageRank 就是在所有给它投票页面的重要性经过递归算法得到的。多个页面的投票是一种累加的关系,而重要性体现在,A 页面有 N 个超链接,那么 B 只是其中 N 分之一,那么 B 只能获得 A 的 PageRank 的 N 分之一。所以页面由链接跳转获得 PageRank 值是所有可以跳转到这个页面的其他页面 PageRank 除以其他页面的链接数,然后做累加。
当然如果多个页面之间存在链接环,仅仅这样处理还是不行的。为了解决链接环的问题, 需要引入随机网页跳转的概念,也就是说这个浏览网页的人有一定的概率输入网址直接跳转到随机的一个页面,并且跳转到每个页面的概率是一样的。所以页面由随机跳转获得的 PageRank 是 1 除以所有页面数。
这样的话,我们就给链接跳转的概率设置为 a, 那么随机跳转的概率就是 1-a。最终一个页面的 PageRank 值就是 a 乘以链接跳转的 PageRank,加上 1-a 乘以随机跳转的 PageRank。
版权声明: 本文为 InfoQ 作者【看山】的原创文章。
原文链接:【http://xie.infoq.cn/article/eec00d9028e04eb3a6d3537b8】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论