商场商圈潜客挖掘模型
本文分享自天翼云开发者社区《商场商圈潜客挖掘模型》,作者:石泽涛
超速数据清洗算法:
1)针对同一用户,顺次选取两条记录(第 n 条、第 n+1 条),根据第 n 条记录的停留时间 TSn(两停留点时间差),以及与第 n+1 条记录的距离 Dn(两记录点经纬度距离),计算第 n 条记录的穿越速度(Dn/TSn),如果该速度大于 350km/h,则第 n 条记录的坐标修改为第 n-1 条记录的坐标,否则不作修改;
2) 如果为首条记录不合格,则继续计算第 2 条记录的速度,第 2 条记录与第 3 条记录的距离 D2,直到找到速度合格的记录,将其坐标赋予首条记录。
3)最后一条记录始终保留。
4)重复步骤 2
5)删除重复记录
乒乓切换清洗算法:
1)针对同一用户(Mdn),顺次选取三条记录(第 n-1 条、第 n 条、第 n+1 条),如果第 n-1 条记录与第 n+1 条记录 BSID 相同,第 n 条记录和第 n-1 条两条记录时间小于 5 分钟且与第 n 条记录不同,则标记第 n 条记录为一条乒乓记录,连续标记的乒乓记录记录为一个乒乓记录重复组;例如:CABABABAD 标黄的部分为一个乒乓重复组,红字表示乒乓记录,这个情况属于具有 5 条乒乓记录的重复组。
2)对于只有一条乒乓记录的重复组(CABAD),考虑两点间的距离和事件发生的时间。首先,计算第 n 条记录的穿越速度(Dn/TSn),当第 n 条记录与第 n+1 条记录距离小于 1km 时,穿越速度如果大于步行平均速度(6km/h),则第 n 条记录坐标修改为第 n-1 条记录的坐标;否则不作修改。
3)对于大于等于两条乒乓记录的重复组(CABABD、CABABAD、CABABABD),将第一个乒乓记录坐标替换为其相邻的记录坐标,一个重复组内沿用相同规则进行替换,不再依次进行判断。比如 CABABD 替换为 CAABBD、CABABAD 替换为 CAABAAD。
4)遍历结束后重复步骤 2)。
5)重复 2)3)4),直到所有记录均合格。
6)删除重复记录。
顾客识别算法:
1)判断目标区域的范围。
2)使用居住地工作地最近的地点与目标区域的距离。按下面条件进行筛选:(D 为距离)
D<1 公里 停留时长>10min
1 公里<D<2 公里 停留时长>30min
D>2 公里 停留时长>45min
满足以上条件即为商场顾客
使用三组速度(进入前,里面,离开后)计算方差,大于 1 的去掉,计算进入前的最近三个速度的平均速度,和在目标区域里面的平均速度,如果相差小于于 10km/h 为非顾客则去掉,否则是顾客。
评论