背景
One ID的核心价值是打通数据孤岛,把不同时期孤立建设的系统,用统一ID串联起来。One ID就像在修桥,把各个数据孤岛系统贯通。将多端环境的数据孤岛打破后,我们就能更全面、完整的了解我们的用户,为精细化运营打下数据基础。
针对ID描述不仅包括常见实体ID如UserId;同时包括类似行为ID,如浏览器CookieID、设备标识符IMEI/IDFA、MAC;属性ID,如Email,Mobile;外部ID,如WeiboID、高德POI_ID,当时项目共涉及20+类ID的打通和归一 。
OneID 设计
ID-Mapping
ID-Mapping是大数据分析中非常基本但又关键的环节,ID-Mapping通俗的说就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主题,例如同一台设备(直接),同一个用户(间接),同一家企业(间接)等等,可以形象地理解为用户画像的“拼图”过程。
One ID的核心技术是ID-Mapping,其原理是将各系统的关键要素抽象成图计算用的“点”和“边”,用图计算算法很轻易的判定同一个“对象”,从而构建一个个无向连通图,生成ID映射字典。
这个ID映射字典就是一座座通往各个数据孤岛的桥梁。我们通过这些桥梁,可以把相同“对象”在不同孤岛中的数据串联起来。这样,我们就掌控了全局,而非局部。首先需要建立数据仓库,用于存储用户标签数据。
ID-Mapping有非常多的用处,比如:
-
跨屏跟踪和跨设备跟踪,将一个用户的手机(App、小程序)、PC、平板等设备的上的行为信息串联到一起。 -
风险防控层面,通过模型识别可能存在用户、设备伪造问题。
设计方案
1.基于账号
基于账号体系企业中最常用的是基于账号体系来做ID的打通,用户注册时,给到用户一个uid,以uid来强关联所有注册用户的信息。
2.基于设备
基于设备,那对于未注册用户可以通过终端设备ID精准识别,包含Android/iOS两类主流终端的识别。通过SDK将各种ID采集上报,后台利用的ID关系库和校准算法,实时生成/找回终端唯一ID并下发。
3.基于账号&设备
基于账号&设备:结合各种账户、各种设备型号之间的关系对,以及设备使用规律等用户数据,采用规则规律、数据挖掘算法的方法,输出关系稳定的ID关系对,并生成一个UID作为唯一识别该对象的标识码。
4.基于图计算
采用图计算手段,来找到各种id标识之间的关联关系,从而识别出哪些id标识属于同一个人。
图计算的核心思想:将数据表达成“点”,点和点之间可以通过某种业务含义建立“边”。然后,我们就可以从点、边上找出各种类型的数据关系:比如连通性,比如最短路径规划,id_mapping(id打通)的最后目标,就是形成一个id映射字典。
技术设计与实现难点
1.工程实现技术
在线服务:提供在线识别服务,在线发码,在线关联逻辑开发。难点在于数据量巨大,同时要求性能高。
离线服务:常用于大数据分析场景,需要增量从在线库中同步至离线库。
2.数据权重归一问题
3.业务ID频繁变更下的工程问题
建设自动化数据接入框架,一方面ID所涉及的数据源业务的变更频繁,关系对接入需要不断调整。
另外一方面因计算量实在太大影响数据产出时效,不是所有的ID和ID的识别都是支持的,因此需要有一个配置化的方式来记录哪些ID需要接入,哪些ID和ID之间需要识别服务。
下图为 阿里系oneID设计
结语
本文描述OneID场景的方案与工程技术实现的方法与难点,核心逻辑还是在具体业务设计,不同的业务系统对应ID领域不同,但主要的目的是一直的。
OneID映射字典是一座座通往各个数据孤岛的桥梁。
我们通过这些桥梁,可以把相同“对象”在不同孤岛中的数据串联起来。从而满足我们精准营销、用户运营的精确策略。除此之前,很多营销、广告大量场景都有OneID的身影。
原文始发于微信公众号(程序猿阿南):OneID 系统设计之ID-Mapping
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/22270.html