• 注册
  • 查看作者
  • 为什么图计算能正面硬刚黑色产业薅羊毛?

    本文来自微信公众号 “亲爱的数据”(微信号:deardata),作者:谭婧,泽酷网经授权发布。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    原创:谭婧

    全文审核专家:朱小坤


    场景一:电商给新用户的补贴,黑产账户薅走了。

    场景二:每当竞争店铺花钱打广告,就立刻雇佣黑产账户一顿疯狂恶意点击,竞争店铺在线广告费一会就花没了。

    场景三:一个不咋地的商品,好评一千条,虚假评论误导消费,我浏览完商品评价,都差点信了,好在兜里没钱,买不了。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    数字时代,黑色产业团伙就在身边,伺机而动,假账户,薅羊毛,刷流量。

    要像破案一样,掌握黑产行动规律,得用图计算技术。

    头部电商APP的注册账号可以高达四亿以上,不免混入不明身份之辈,比如黑产操控的账户。

    从几亿账户中找到“异常”账户谈何容易,而一个很好用的破案线索叫作“关系”。

    “找关系”的本质是在图这种数据结构上挖掘信息,也可以称呼为“图挖掘”。

    (还可以看这篇文章:《原来,知识图谱是“找关系”的摇钱树?》)

    为什么图计算能正面硬刚黑色产业薅羊毛?

    黑产账户常常团伙作案,且早学会了伪装。除了作假,黑产账户会有正常的浏览和购买,专门迷惑人。

    可以说,这些黑产账户有智商,但不高。

    它们的“智商”足以让常规系统无法辨别。

    如何用图挖掘技术“找到”它们呢?

    用一个想法巧妙的图挖掘算法。

    这一算法原理好比浓缩咖啡。把一大杯咖啡,浓缩成一小杯。记住“浓缩”这个动词,很关键。

    浓缩的过程,是把不可疑的用户从图里不断移出来。

    把一张全局大图浓缩出最可疑的小图,黑产控制的账户就藏匿在里面。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    电商场景的图里可以有很多类别的顶点,商店,商品,账号,品牌,设备等等。

    我们只选两种顶点,一种是商品,一种是购买商品的所用的设备(手机,笔记本电脑都行)。

    最开始,建一个“下单手机”和“商品”的二部图(只含有两类顶点的图)。

    在某个电商APP里面下过单的所有手机都以编号的形式 “画”在图里。

    下单手机和商品之间的关系包括购买,浏览,收藏,加购。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    第二步,引入“可疑度”来量化每个下单手机作弊的可能性。

    下单手机的可疑度怎么计算呢?一台手机下单的次数(也称顶点入度),计算每个顶点的可疑度。

    算法设计可疑度的巧妙之处,就是能分辨得出作弊和非作弊的边界,从而找到作弊团体。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    最开始的时候,图里既有作弊的账户,也有正常消费者的账户。毕竟,作弊的人是少数。

    一个用户关心的商品占平台商品总量的很少很少一部分,所以呈现出一张稀疏的二部图。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    电商的二部图的全局规模很大,顶点数量可达到几十亿,边数量可达几百亿。当之无愧工业级图数据。

    我们的目的,就是找到那张“边”最密集的局部图。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    我要用一个与顶点数量无关的量来刻画最后的结果。就好比,液体浓度和盛液体的容器没有关系。

    不断删除可疑度最低的顶点。相当于,在不断地浓缩可疑度的浓度。

    第三步,再用贪心算法的思路,动态删除最小可疑度顶点。

    于是,可疑度小的顶点被一一删除,留下那些可疑度大的顶点。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    这个图挖掘算法叫啥名字?

    这是Fraudar算法,来源于2016年的KDD会议,是美国卡耐基梅隆大学克里斯托·法拉特(Christos Faloutsos)教授团队论文,并获得了当年的最佳论文奖。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    图计算正面硬刚黑产薅羊毛的行动还在继续,随之而来的是图深度学习技术的灿然一新。

    作弊手法绝不会一成不变,Fraudar算法不能抓到所有的黑产账户。

    Fraudar算法只用到了图结构的信息,还有更多信息没有用起来。

    有的账户频繁切换IP,频繁切换手机的操作系统等等,这些都是逃避”抓捕“的异常行为。

    加入特征,用图深度神经网(比如GraphSAGE)做分类任务,区分“好人”“坏人”,这样就能找到更多黑产账号。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    最后,多轮分析和验证,证明抓出来的账户是黑产账户,以免误伤好账号。

    图深度学习一种强有力的工具,用于反黑产时,像一面照妖镜。

    能把图深度学习用得好的企业,那都是高手。根据亲爱的数据可靠消息,你手机里的那些知名的APP,淘宝,支付宝,京东商城,小红书等等都在使用这一技术。

    (完)


    为什么图计算能正面硬刚黑色产业薅羊毛?

    最后,再介绍一下主编自己吧,

    我是谭婧,科技和科普题材作者。

    为了在时代中发现故事,

    我围追科技大神,堵截科技公司。

    偶尔写小说,画漫画。

    生命短暂,不走捷径。

    个人微信:18611208992

    还想看我的文章,就关注“亲爱的数据”。

    为什么图计算能正面硬刚黑色产业薅羊毛?

    分享、在看、

    点赞、打赏 ,

    都是爱

    广东·广州
  • 0
  • 0
  • 0
  • 180
  • 请登录之后再进行评论

    登录
  • 做任务
  • 实时动态
  • 主题偏好
  • 单栏布局 侧栏位置: