在画像标签体系的生产过程中,我们需要对各类数据源进行一系列的处理,最终生成标签。其中,ID Mapping 是一个关键环节。ID Mapping 的目标是解决不同ID 指向同一人的问题,特别针对早期成立的公司,由于注册方式多样,可能会出现多个 ID 对应同一用户的情况。例如,用户通过邮箱注册后可以绑定或更改手机号,或者曾经允许未登录状态下使用,这些情况都可能导致多个 ID 对应同一用户。
为了解决这个问题,ID Mapping 承担着实现多设备关联的任务。另外,ID Mapping 对于风控来说也是至关重要的基础步骤。通过 ID Mapping,可以更好地识别和关联不同设备的使用者,从而更好地进行风险控制和安全管理。通过合理的 ID Mapping 设计和管理,我们可以更好地保护用户隐私和数据安全,同时提高画像标签体系的准确性和可靠性。
在负责去哪儿的 AB 实验系统的过程中,我们经常面临一些挑战。当产品团队投入大量时间和资源完成实验后,如果实验结果不显著,很容易产生诸如“为什么实验无效”和“下一步迭代的方向是什么”等疑问。
为了解决这些问题,我们进行了 AB 实验效能分析,主要分为三个部分。首先,我们通过业务流程漏斗模型、核心用户画像标签识别以及业务域误导标签识别,尝试判断实验效果不佳是否因为量提升不够。其次,运用决策树等分析方法,探究质的提升是否存在问题,例如其他实验的冲突或提升量未达到显著性比例的情况。最后,量化动作效能,明确每个动作对目标的影响程度。
Q8:是否可以用一些统计方法来确定 AB 实验的时候的最小样本量?AB 实验有标准的计算过程,这样是不是可以知道大概需要多少样本量可以达到统计显著的一个效果了?
A8:更小的业务公司,可能流量先天性就不够,你想要达到一个最小样本量,操作层面也不太能实现,所以我们需要有一些在没有达到最小样本量的时候,能快速去大致地推断这个实验效果。
Q10:模型在方案标签建设中有哪些应用?
A10:其实这个我现在通过去哪儿这边的实践来说,大模型在算法标签应用是非常的广的。首先最简单的一个例子,我们在构建户的画像的时候,经常会遇到 POI 地标数据,地标的数据是从一些文档里面抽取的,可能这个就大模型在用,这个地方的准确率说实话比我们以往自己构建的一些模型效果好很多。以及我们在构建知识图谱的时候,会遇到一些实体消歧、实体合并等等。