滴滴下架,谈谈数据黑产

小青爱吃草2021-07-24  220

图源:图虫

编者按:本文来自微信公众号计算广告(ID: Comp_Ad)⭐,作者大数据仁波茄,创业邦经授权转载。

最近,滴滴他们全家都被下架了。除了阳奉阴违赶去纳斯达克投胎以外,数据安全、隐私保护这些多数人既关心又不了解的话题,也被推上了风口浪尖。正好前些天,金星老师要搞个新节目,导演组找到我,居然也想聊聊大数据、用户隐私这方面的事儿。当然,鸡一嘴鸭一嘴地控诉大数据罄竹难书的罪恶,我兴趣不大。

全民关注数据和隐私,当然是好事,只是这里技术和行业知识太多,不容易透彻理解。因此,市面上惊悚的传言频出,似乎搞大数据的都是三头六臂的妖精。作为一名战斗在数据一线的仁波切,我感到有必要挺身而出,以我在宗教界相声说的最好的工程师身份,给大家把这方面的事儿讲明白。

弄明白这玩意有啥用?❓❓普通人,可以搞清泄露什么隐私会让自己破财招灾,免得不明就里地疑神疑鬼,心脏病和痔疮都犯了;对立法专家来说,可以稍微理清法规的边界和作用,别总想着利用手里的图章,靠加紧箍咒渔利;对想挣钱的来说,那这里面日进斗金的机会多了去了。当然,在学习本文之外,您还得同时精研刑法,先找好退身步。

首先,大家得明白一个道理:如今的世界,早已是数字世界第一性的了。利用用户数据提供个性化服务,是绝对无法逆转的大趋势。如果把数据的使用都停掉,其后果比全国停用电力还要严重。

既然数据是提供个性化服务的,那么什么样的数据应用,是靠谱和无风险的呢?❓❓其实,这里有个明确的标准:你的数据,只能在同一个场景下服务于你本人。打个比方,快递可以拿到你的地址电话,但这是给你服务用的,只要不把你的数据给别人,或者服务别人,那就没啥问题。

互联网也是一样,管他是腾讯、淘宝还是抖音,根据你的行为影响你看到的内容,虽然乍一看菊花一紧,但是其实用不着太紧张,它对你的隐私并没有实质性的侵害。这样的用途,今后会长期存在,没必要因噎废食。

这里隐藏的问题,在于把数据“用于服务别人”这件事该怎么界定。说起来,这在互联网上并不新鲜,您想想现在短视频的推荐系统吧,其原理基本都是去统计“看过这个视频的人还会看什么”,这不就是把其他人的数据聚合起来服务你嘛!❗️❗️没错,这确实是。只不过,这是把其他人统计数据用于服务你。

那么,在统计过程中,究竟有没有漏洞让你可以窥见其他某个人的具体隐私呢?❓❓如果有的话,又如何解决呢?❓❓沿着这个方向,衍生出了数据安全方面一个重要的技术方向——隐私计算。你可能听过的一些词汇,什么差分隐私啊、联邦学习啊,都是这个方向里的热点,这些话题我们改天专门再谈。

说完了什么算正常,再回到正题:如今的互联网,到底有没有数据黑产呢?❓❓那肯定有啊!❗️❗️不过这些黑产,可能跟多数人理解的不太一样。

跟数据相关的黑产门道,简直是五花八门,一抬脚踩死一片。归纳总结一下,数据黑产可以分成两个大类:一是直接从你身上骗钱;二是借你的身份去干点坏事。

从你身上骗钱,又有两种不同的思路,先说第一种。比方说,有人拿了你的电话号码和家庭住址,怎么挣钱呢?❓❓很简单,往你家里发个货到付款的快递,别收太贵了,比方说50块,家里人不知买的啥,糊里糊涂就交钱收了。包裹里的小物件一块钱,快递费三块钱,那还挣你40多呢!❗️❗️您说家里人也不一定收?❓❓就算只有百分之二十的人收,人家都挣大了!❗️❗️

可以看出,这是一种“广撒网”的“轻诈骗”模式,可以很容易把大量用户信息变现。这类模式需要的信息,是那些“可以找到你”的信息,比方说住址、电话、email之类。这类信息有个统一的名字,大概您听说过,叫“个人可定位信息(PersonalIdentifiable Information, PII)”。

该怎么防范呢?❓❓这种广撒网的模式需要用到的PII信息,在如今各国的用户隐私保护法规下,几乎都已经被禁止传播和使用了。在我国,贩卖五十条以上的手机号这类信息,就有可能有刑事责任,所以这种风险在总体上是可控的。就算是信息真被泄露了,人家是广撒网嘛,一般也不会把你一把薅死,倒也犯不着忧心忡忡。当然,自己的PII信息,还是要看住了,别轻易给别人。

而更生猛的模式,“广撒网”就不够了,还得“深挖洞”。这就要用到用户身份以外的“行为数据”了。简单来说,就是深入分析你平常的网络行为,找到你的软肋之后,一刀下去,砍你个全身不遂。

这个路数最兴旺的领域,是放贷。放贷的爱找什么人呢?❓❓就是那些频繁借钱的人,这种人拆了东墙补西墙,听说哪儿能借出钱来,就跟苍蝇见了血一样。于是,想办法通过各种来源的数据,找出那些频繁借贷的人,诱使他上自己这儿来借,再设下个套路贷的陷阱,就能挣一把大的。而这些人常用的数据,就是短信、搜索词什么的。至于来路,没几个正规的。当年那一拨金融科技公司纷纷被抓,不少都跟这些数据黑产有关。

“深挖洞”的模式,用户就有可能蒙受重大损失了。说到底,这还是违背了上面说的“在同一个场景下服务于你本人”这条原则:一个人在A家借贷的数据,按说是不应该让B家知道的。

但是,这样一来麻烦就来了。本质上看,所有的精准广告模式,都存在把A场景/客户的数据用于B场景/客户的问题。如果B场景/客户的金主有恶意,那么这里的风险不容小觑。因此,我支持对于广告业务中使用的数据,要有明确的规范和边界。您想想,搜空调维修把骗子引到家里来这种事,还少么?❓❓

在现代的大数据技术下,这种“深挖洞”的能力超乎你的想象:举个例子,通过手机陀螺仪数据,能分析出用户的行进速度,如果速度比较快,再看看电量一直是满的,那么他十有八九是在开车,手机插着充电。如果一天有八九个钟头都是这状态,那大概就是个职业出租司机了。如果这司机在北京,消费上又不像一般司机那么节俭,那很可能是城乡结合部的拆迁户,手里有了点钱,没啥事干只好开出租。这些人一夜暴富,耍钱的比例不低,耍着耍着家里管得紧了,可手瘾还在,就只好借钱了。抓住他们玩套路贷,那可是一抓一个准!❗️❗️

而像滴滴这种掌握大量用户数据的公司,任何一点疏忽或恶意,都可能让用户蒙受重大损失,至于上市过程中,把什么数据交给SEC,SEC又能从中挖掘出什么,虽然不得而知,也是细思极恐了。

咱们再来说说第二类,借你的身份去干坏事。这类方法,往往是在互联网的技术体系内,用一些非PII信息,从客户而不是你身上挣钱。

最典型的例子,就是在黑产圈长盛不衰的的cookie stuffing。这事比较复杂,简单说是这样的:举个例子,假设淘宝为了搞到更多流量,就跟一些渠道说,你们去给我送流量,带来的用户下单,我给你提成千分之二!❗️❗️但是怎么才算这个渠道带来的下单呢?❓❓就是用户通过这个渠道的广告位点击到淘宝的时候,带了个用户的ID,后面这个ID再下单时,就能对上了。这样一来,鸡贼的渠道就想出个办法:尽可能多收集用户ID,然后给每个ID伪造一个到淘宝的点击事件,这些ID里如果有人下单,那不就算我的了!❗️❗️反正我一点成本也没有,撞上多少算多少呗!❗️❗️

大家注意,在这样的黑产中,除了用户的ID,人家什么也没用。而这里用的ID,也并不是电话、email这些 PII信息,而是cookie、IDFA等这些根本无法主动触达用户的身份号。就这样,人家拿你的身份证去挣了点小钱,而你没有直接损失,就像是做了一次免费的微型无痛人流。

转载请注明原文地址: https://www.pcnow.com.cn/tech/557226
00