CIPT基础知识-用户跟踪(2/2)-常见方式
上一章我们讨论了可用于用户行为跟踪的各种识别符,接下来我们具体介绍用户跟踪的几种常见方式
网站行为跟踪
1-站内跟踪
为了给用户提供个性化的服务,即“千人千面”, 网站/App需要收集用户的访问行为,来判断用户对内容/服务的兴趣偏好。一个好的个性化推荐服务,需要的一方面是优秀的推荐算法,更重要的是全面的个人数据采集。
现在有很多厂商提供用户行为分析服务,包括谷歌,Adobe以及国内的百度等。商业网站在网页中嵌入这些厂商的js代码,可以实现对用户的页面访问行为进行全面的数据采集(也称埋点),包括页面上的点击,页面浏览时间,不同页面的跳转顺序等。同时,为了它会采集包括IP地址,浏览器信息,操作系统等个人设备信息,生成用户唯一ID(gid)存储于一方cookie中。如下图Carrefour页面中就会调用谷歌的analytics.js,来完成用户在该网站的行为采集。
图1-利用GA的js进行用户行为数据采集利用这类用户ID,它能将用户对该网站的多次访问行为关联到一起。比如你上周访问了网站的体育频道,这周看了财经频道,虽然时间不同,IP地址也变了,且你并未执行登录操作,但利用cookie中保持的uid,后台还是能识别为同一人。
使用一方cookie进行的行为跟踪,目的一般是网站内容优化与个性化体验提升,给用户带来的隐私风险有限。很多网站会说它采集的是“匿名”数据,其实并非如此,就象前一章所介绍,多个ID的组合是有机会关联回具体自然人的。
举例来说:第一周你访问了网站A,但并未注册,通过埋点服务,你被赋予了一个唯一uid,且所有的页面浏览行为都关联在该uid下。这是uid还是一个弱识别符,不能直接关联到你。
第二周,你在网站上完成了注册,uid就和你的注册信息(比如:手机号码)关联上了。你第一周的匿名访问行为通过uid和手机号码间的匹配关系,就变成了实名行为信息,用于支持对你的分析与画像。
第三周,你继续在未登录情况下浏览网站内容,所有的访问行为都会被关联到你的注册账号下。
因为采集回的个人信息都是在该网站/域名内,所以被称为First-Party Tracking
2-跨站跟踪
还有对应的跨站跟踪(Third-Party Tracking)也叫跨域跟踪,指的是实现用户在不同网站/域名下的访问能被识别出来为同一人。它就存粹是为了变现,将采集回的用户行为数据通过出售给其他方进行广告投放。
实现路径上,在用户访问网站A页面时,通过页面中嵌入的js代码调用某广告技术公司C的远程服务,C会为你生成一个唯一ID,并记录你对网站A的访问行为,同时该ID会通过三方cookie写入你的设备中。当你再访问网站B时,B也和C有合作,C的远程服务同样被触发。通过读取你设备中的cookie,C获取到你的uid,然后将你在C网站上的访问行为,记录到这个uid下。通过这种方式,公司C就掌握了你在多个网站的访问行为,且知道这是同一个用户的数据,然后利用这些数据为你打上不同的标签。
它解释了为什么我们刚在一个网站搜索了某个产品,再访问其他网站时会立即被推送同类类产品的广告。因为利用三方cookie,整个广告网络在将你的访问数据进行实时多方同步。
图2-利用三方cookie进行跨站跟踪从公司C的角度,它收集的数据并不能直接关联上特定自然人,但这类假“匿名”数据(通过与其他数据的汇聚,一定能关联回个人)的分享会曝光个人的基本信息与兴趣爱好,是对个人隐私的侵犯。
2010年在各方压力下,各家浏览器厂商准备通过新增DNT(Do Not Track)功能来支持用户不被三方网站跟踪,DNT并不采用手段过滤或阻止追踪Cookies,而是当用户提出 “Do not track” 请求时,具有“Do not track”功能的浏览器会在HTTP数据传输中添加一个“头字段”(headers),这个头字段会告诉商业网站的服务器用户不希望被追踪。但DNT并不是一个强制规定或行业统一规范,需要商业网站“自愿”实施,它事实上没发挥出预期作用。苹果从2020年起在Safari浏览器上已经默认禁用了三方cookie,其他几家也在逐步跟进。//欢迎大家阅读相关文章-保护隐私应该用什么浏览器
3-APP用户行为跟踪
APP上同样有站内跟踪与跨站跟踪,只不过实现方式略有区别,它是在APP内部嵌入SDK来采集用户的设备信息与访问行为。因为设备ID(IMEI/IDFA/OAID)比cookie有更好的持久性,所以无论是一方还是三方的跟踪都有更好的跟踪效果。
这些嵌入的广告SDK因为被嵌入到多个APP中,并进行独立的数据收集,它们会拥有海量的用户设备信息与行为信息,包括用户设备ID,设备上安装的APP情况,访问时长,访问规律。这些数据的持续积累,能实现对设备使用者的精准画像构建,包括个人属性,生活习惯,兴趣爱好等。这类“匿名”数据通过和平台/品牌方的实名数据相结合,可以更准确预测用户的购物倾向。
邮件跟踪
我们邮箱中收到的各种推广电子邮件,也是有跟踪机制支持用户行为数据采集,实现对邮件打开/点击情况的跟踪分析。
它使用的是一种被称为pixel的方法,因为现在的邮件都是html格式,在其中会嵌入一个用户不可见的图片,它只有一个像素点大小,所以叫pixel。这个pixel保护了一个外部链接指向pixel服务器。当我们打开邮件时,浏览器/邮件客户端会尝试下载邮件中嵌入的所有图片,而这个pixel对应的URL就会被触发,远程的pixel服务器就能记录下邮件打开的时间和对应邮箱地址。同时pixel还能采集更多的个人信息用于分析,包括:用户操作系统,邮件客户端信息,IP地址,屏幕分辨率,以及用户在邮件内的其他点击行为。
邮件跟踪代码采集回的用户行为数据,主要会在聚合后,用于营销内容与手段的优化。这部分数据也能和商家的一方数据相结合,判断特定用户对促销活动及特定产品服务的倾向性。
WiFi热点与嗅探
很多商业场所有提醒免费的WiFi热点,这些热点也会对用户的设备信息进行采集,它分为如下几种方式
1. WiFi未连接
当用户设备的无线或蓝牙功能打开,会持续向外广播以寻找可用的网络连接。如果用户进入到这些商业WiFi覆盖范围,WiFi热点或WiFi探针会获取到广播信息中的MAC地址,该部分信息会被采集,主要用于分析设备用户的地理位置和信息。比如某个商场或商店每天的人流情况,以及不同设备在不同场所访问情况及停留时间。
目前iOS和安卓都提供随机MAC功能,即能为用户在连接不同网络时随机生成不同的MAC地址,防止手机设备在不同网络间被识别和跟踪。
2. WiFi连接时
如果用户主动连接这些公共WiFi,它可以弹出登录界面要求你使用手机验证码登录。通过这种方式,就收集到用户的手机号码和设备信息(MAC地址)之间的匹配关系。WiFi热点之前获取到的基于MAC地址的行踪信息就关联上用户的手机号码。同时,WiFi的登录入口还可以在你设备上生成三方Cookie,进行后续的网络行为分析提供支持。
3. WiFi连接后
成功连接后,用户的网络访问行为都要先进过WiFi热点,它能采集到用户的所有浏览网站记录。如果用户访问的是非https网站,整个网络交互内容都会暴露给WiFi热点。
//建议大家外出时记得关闭wifi与蓝牙,也尽量不要连接公共区域或商家的免费WiFi
地理位置跟踪
1-WiFi与移动基站
如上节介绍,通过采集设备连接的WiFi信息,能确定出设备所处的精准位置,因为WiFi覆盖的信号范围只有几十米。要利用该技术,需事先收集并建立WiFi与地址的对应数据库。象地图类应用,基本都有使用wifi进行位置定位。
设备连接的移动基站信息和WiFi热点类似,通过采集当前设备连接的信号塔,能判断出用户的大致位置。
2-GPS
大部分的智能设备都自带了GPS芯片,通过获取用户授权,APP能持续采集到设备的精准位置。生活类APP习惯采集用户的精准位置信息,用于提供基于位置的服务和广告推送。
3-RFID
RFID(射频识别)标签主要用于消费产品的跟踪。数据存储在RFID的标签芯片中,标签有一个天线用于接收RFID读取器发出的电磁场,利用电磁场标签芯片会将信息通过无线电波发送给读取器。
RFID标签可以在持有人不知情的情况下被扫描,从而泄漏标签内的信息。
4-照片元数据
手机拍摄照片时会将gps信息写入照片文件的元数据中,建议关闭在手机相机中关闭该设置,或向外分享照片文件时进行擦除。
参考资料
1. CIPT官方教程 - 《An Introduction to Privacy for Technology Professionals》
2. EFF基金会 - A Deep Dive Into the Technology of Corporate Surveillance
3. 果壳 - 隐私之争:关于Do Not Track你所应该知道的 - 作者:zhanghuicuc