写点什么

用户标签属性流程处理方法

  • 2025-06-23
    北京
  • 本文字数:504 字

    阅读完需:约 2 分钟

本文分享自天翼云开发者社区《用户标签属性流程处理方法》,作者:石泽涛

用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具,目前用户画像算法普遍存在的问题是数据源较少、数据特征不明显、处理效率低下、分析维度单薄。在分布式计算的架构基础上,我们搭载主框架程序,打造 5 维 8 类 DPI 过滤、打标签算法,攻克处理效率低下、耗费资源大的难题,高效、准确的实现用户上网行为进行深度解析,实现每天百 TB 数据量级处理入库解析,同时大大加强了用户特征的提取与归类,体现数据价值,依靠精细化运营实现对用户的覆盖,以更好的服务好各类用户群体,带来商业价值。


用户标签属性流程处理:

主框架程序加载

通过读取 DPI 数据并对数据进行过滤、去噪音处理,再把数据依次传给 A、B、C 标签程序, A、B、C 标签程序通过对传进来的 DPI 数据分别进行匹配,最终将结果发给框架程序,由框架程序汇总后输出到 HDFS

噪音数据过滤

制定噪音过滤规则库,输入的每条 DPI 记录的 URL 首先和噪音规则库里的噪音规则匹配,如果 URL 以上述噪音后缀结尾,该条 DPI 数据就被过滤,从而提高打标效率

异常数据清洗

制定异常规则库,对无法定位用户的 dpi 记录进行清洗,如数据字段不足、手机号、MEID 号同时为空、URL 异常等



用户头像

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

评论

发布
暂无评论
用户标签属性流程处理方法_天翼云开发者社区_InfoQ写作社区