加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【数据治理】 第2部分话 - 标签治理体系

发布时间:2023-03-06 13:01:24 所属栏目:大数据 来源:
导读:在当前的业务中,用户画像已经成为了重中之重,从模拟用户调研人群、分析挖掘用户使用的行为、预测/推荐用户兴趣等场景中,复盖的用户场景非常多,那今天的主题就是面临海量的标签和数据,我们如何进行治理?

01、

在当前的业务中,用户画像已经成为了重中之重,从模拟用户调研人群、分析挖掘用户使用的行为、预测/推荐用户兴趣等场景中,复盖的用户场景非常多,那今天的主题就是面临海量的标签和数据,我们如何进行治理?

01、背景&目标

首先,已经覆盖全业务线进行画像标签的建设,生产出来的标签能力如何评估?

其次,在精细化运营的场景中,如何保证标签持续运营优化,助力业务运营?

最后,海量的数据标签上线后的使用计算和存储资源,业务真正的使用诉求以及收益是否能复盖数据成本,如何更加合理的去规划?

02、价值&收益

标签质量:根据标签的时效性、标签覆盖度、标签准确性等维度判断当前标签的多维度质量能力评估。

标签使用:深度调研一些低频的标签定位数据质量问题还是没有实际使用场景,如果是数据质量问题,优化后监控是否有使用频率的提升。

计算资源:根据低频率标签和无使用场景标签进行处理下限治理,优化整体标签架构和计算资源,从计算效率和计算成本进行收益评估。

数据存储:一部分统计下线的标签历史的数据存储,另外一部分是正常的标签进行数据有效期的管理,节约数据的存储成本。

03、模型评估

1、模型概览

从业务的自身实际情况角度去考虑,首先有哪些指标可以客观评估,并且大家都认同理解保持一致,另外就是这个指标梳理出来后,能够实际有治理标签的指导意义。

2、维度定义

复盖率:主要是评估实际用户被打标的情况,即被打标的用户数在总用户数的占比。
简单举个栗子,比如【是否购买】的标签,当前全量用户有100万,其中有50万打上了“是”标签,其中有30万用户打上了“否”,那么剩下的20万没有打上任何标签,也就是说当前是否购买的标签复盖率是80%。

使用度:主要评估标签在使用、分析、调度场景的情况。
人群圈选:直接反应该标签的使用现状,有多少人用该标签进行的圈选人群,使用的次数越多,代表着该标签符合场景、标签数据比较可信。

关注度:主要评估该标签被收藏、查看、搜索等场景的情况。
实用度:主要评估标签在业务场景使用情况。
在业务使用的过程中,标签势必要随着业务的发展而进行迭代,因此要记录标签的迭代次数、应用的质量(用户通过平台对标签打分)进行综合考量。

3、模型计算

关于标签模型评估,一般思路就是函数+规则最终评定。大致分为两种情况,第一种评定的维度像关注度、实用度这种,需要先通过Sigmoid函数等函数转化成评分,然后再再进行人工规则进行加权,收藏这种主动行为更有倾向,那么比重就高一些。第二种评定的维度像安全这种,如果敏感数据未脱敏,并且超过5%,直接给0分。

04、模型应用

1、对内

降本:可以拉取最近3个月内使用度<10的的标签进行治理,对于下线的标签可以评估数据存储的成本,以及消耗的计算资源,评估收益。
提效:提高标签的复盖率、准确性,那么针对一些业务场景,评估是否有收益的提升。
安全:针对标签的数据风险项,进一步进项加强防控。
监控:根据多维度指标可以进行整个标签综合的评估,制作一张数据看板,对于每个维度可以设定阈值进行预警,进行治理。

2、对外

对于业务团队的使用者,要把核心的标签以及能力进行产品能力的外化,用户点击标签可以看到历史的就绪时间,标签的覆盖度。

这里需要有个考量,有的标签其实是一把双刃剑,比如使用度标签,那么在两个标签的定义和场景差不多的时候,会不会用户直接选择一个使用度高的,但是这个标签就真的是用户想要的么,那平台如何通过信息展示和产品交互更好的引导用户,是需要投入调研和考思考的。
 

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章