博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
胖子哥的大数据之路(16):数据采集标准-我们到底需要什么样的数据?
阅读量:6196 次
发布时间:2019-06-21

本文共 1047 字,大约阅读时间需要 3 分钟。

一、前言

      刚刚有一个好友向我咨询数据相关的问题,朋友目前是IT设备生产厂商的人。从好友的描述中,提到对用户特征获取的需求。包括:人的兴趣爱好、关注焦点等,在用户的描述中其实只是直觉性的列决出了几点,然后基于此作相应的后续产品或服务推荐。朋友要表达的内容,在我理解,其实是想获取用户的完整的画像信息,只是她并不清楚,完整的用户标签体系应该是个什么样子而已,数据标签体系作为下一个系列,我们单独探讨。在此,我们讨论的问题聚焦到,要想实现业务目标,我们到底需要什么采集(此处不区分自有,还是外部采买)什么样的用户数据,才能支撑我们的业务目标,即数据采集标准的问题。

二、所需即所用-没有标准的标准

      世界上不会有完全相同的两条河流,同样也不会有两个完全相同的业务实体,即使是同一行业,同一领域,不同的企业,其业务模式也是有差异的,比如今日之华为和小米。业务目标驱动的数据需求采集,有其局限性,但也有其适用性,局限性在于时移世易,业务变了,数据需求也就变了;适用性在于,量出为入,不奢侈,不浪费。此话说起来简单,实施起来确实非常复杂,举例而言,苹果6plus(高档货,没用过,感觉很高档的样子)如果在投入市场之前,需要圈定预售目标群体,针对其推送响应的推广信息(貌似苹果不需要广告,人多钱傻东西贵的年代,苹果赚钱都赚的有点不好意思了)那么需要参考哪些数据指标,不需要参考哪些指标?评判需要和不需要的标准又是什么?用户特征维度示例如下图所示:

 

 其中每一项代表用户的一个标签特征,我没有穷举,而是用...省略号来进行处理,不是因为尚未形成体系,而是搜索引擎业务模型下的用户标签体系未必适合于其他领域。此处涉及一个标准的问题,这些特征标签够吗?判断够与不够的标准是什么(我也是醉了,一说起标准就成了说车轱辘话了)?数据领域有一个非常操蛋的东西,就是没有标准,其实很多问题,同样没有标准。之前和几个数据仓库领域的专家探讨数据仓库数据存储模型设计标准的问题的时候,我总结了几条:

1.用的爽吗?

   用的不爽是给别人找麻烦;

2.变的勤吗?

   变的勤是给自己找麻烦;业务未变,模型变,是你设计有问题;业务变了,模型变,是合理的场景。

数据采集的标准其实有点和上面的问题类似,也可以总结为几点:

1.数据拿来干什么?

2.数据拿来怎么用?

我想回答了以上两个问题,即明白数据采集的判断标准问题:业务驱动,量出为入,所需即所采。

三、预告

   下个专题写用户标签体系,在此预告吧。先放一张图,百度的用户画像示意图,感觉挺好看的。

 

转载地址:http://vifca.baihongyu.com/

你可能感兴趣的文章
周俊事件:究竟谁算计了谁?
查看>>
我的友情链接
查看>>
PHP链接Access数据库 PDO模式+DSN模式
查看>>
基于Rsync算法的简单云盘实现(上)
查看>>
我的友情链接
查看>>
excel--数据分列
查看>>
20180607早课记录26-Hive
查看>>
7. Python运算符之逻辑、成员、身份运算符及优先级
查看>>
linux 混杂设备模型
查看>>
tee命令
查看>>
zabbix监控MySQL数据库同步状态
查看>>
一文学会用 Tensorflow 搭建神经网络
查看>>
在linux上添加开机自启动脚本的简单方法
查看>>
Linux学习总结(二十四)系统管理3
查看>>
QT-模态对话框与非模态对话框笔记
查看>>
NGINX 优化 之 十二
查看>>
告别“臃肿”,选择微服务(文末福利)
查看>>
【活动】VUCA时代下的项目管理:京东技术+系列论坛
查看>>
微服务架构最佳实践
查看>>
正则表达式
查看>>