11.3 安全架构:反垃圾与风控
1.反垃圾邮件
解析:分类算法,获取分类模型。
2.贝叶斯分类算法
贝叶斯算法解决概率论中的一个典型问题:一号箱子放有红色球和白色球各 20 个,二号箱子放油白色球 10 个,红色球 30 个。现在随机挑选一个箱子,取出来一个球的颜色是红色的,请问这个球来自一号箱子的概率是多少?
利用贝叶斯算法识别垃圾邮件基于同样道理,根据已经分类的基本信息获得一组特征值的概率(如:“茶叶”这个词出现在垃圾邮件中的概率和非垃圾邮件中的概率),就得到分类模型,然后对待处理信息提取特征值,结合分类模型,判断其分类。
贝叶斯公式:
P(B|A)=P(A|B)*P(B)/P(A)
P(B|A)=当条件 A 发生时,B 的概率是多少。代入:当球是红色时,来自一号箱的概率是多少?
P(A|B)=当选择一号箱时,取出红色球的概率。
P(B)=一号箱的概率。
P(A)=取出红球的概率。
代入垃圾邮件识别:
P(B|A)=当包含"茶叶"这个单词时,是垃圾邮件的概率是多少?
P(A|B)=当邮件是垃圾邮件时,包含“茶叶”这个单词的概率是多少?
P(B)=垃圾邮件总概率。
P(A)=“茶叶”在所有特征值中出现的概率。
3.布隆过滤器黑名单
记录垃圾邮箱地址。由这个地址发出来的邮件,都可以标记为垃圾邮件。
这个邮箱地址可可能上亿,十亿级别,存储查询比较浪费空间时间。
有什么办法用较少的空间记录较大规模的黑名单?
解决办法:布隆过滤器。
解析:1,邮件地址,有 8 个函数 F1-F8,计算出 8 各值。在 2G 空间记录 8 个值,标记为 1.
2 识别:8 个 1,标识邮件地址为垃圾地址。如果有一个不为 1,不会被标识为垃圾地址。
3.有可能错判,不会漏判。
特点:使用较小空间记录大量信息。
4.风控系统
风控:风险控制。电子商务网站(金融领域):保障交易安全。
电子商务形式:B2B,B2C,C2C,风险特点大致可分为:
账户风险:账户被黑客盗用,恶意注册账号等。
买家风险:买家恶意下单占用库存进行不正当竞争;黄牛利用促销抢购低价商品;此外还有良品拒收,欺诈退款以及 B2B 虚假询盘等。
卖家风险:不良卖家进行恶意欺诈,比如:货不对板,虚假发货,炒作信用,发布违禁商品,侵权产品等。
交易风险:信用卡盗刷,支付欺诈,洗钱套现等。
5.规则引擎(识别风险)
当交易的某些指标满足一定条件的时候,就会被认为具有高风险的欺诈可能性。比如:
用户来自欺诈高发地区
交易金额超过某个数值
和上次登录的地址距离差距很大
用户登录地址和收货地址不符
用户第一次交易
。。。。。。。。。
大型网站在运营的过程中,结合业界的最新发现,总结出数以千计的此类高风险交易规则。一个方案是在业务逻辑中通过编程方式使用 if...else..代码实现这些规则,可以想见,这些代码会非常庞大,而且由于在运营过程中,会不断发现新的交易风险类型,需要不断的调整规则,代码也需要不断调整。
6.机器学习(识别风险)
规则引擎虽然技术简单,但是随着规则的逐渐增加,出现规则冲突,难以维护等情况,而且规则越多,性能也越差。
大型互联网更倾向于使用机器学习模型进行风控。
评论