想要做一个专题分析,首先就是要有数据。那么数据有哪些种类呢,数据又从哪里来呢?这两个问题将会引导大家学会如何理解数据和收集数据。
01数据的类型大家经常会在Excel的设置单元格对话框中看到很多的数据类型,但其实这么多数据类型,最终都可以归为两大类。
? 定性数据(字符型数据):
◎分类数据,如男女、民族等,不能区分大小,不能运算
◎顺序数据,如成绩的优良中差、满意度评分等,可分大小
? 定量数据(数值型数据):
◎离散型数据:如用户数、消费次数等,可加减
◎连续型数据:成绩、消费金额等,可乘除
※统计方法差异:
连续型变量:频数分析、集中趋势分析(均值、众数、中位数)、离散程度分析(标准差、方差、最大值、最小值、范围);
非连续性变量:主要能做频SEo-6.com数分析
02数据的收集? 企业自己的数据库
互联网企业一般会通过数据埋点(日志)来获取数据,如UV/PV、用户数、用户停留时间、浏览页面等用户行为数据。
传统业务的企业则可能会通过一些系统,如SAP;
? 公开出版物,如统计局出版的期刊、年鉴等;
? 互联网
互联网上有很多的第三方的数据平台如:年鉴汪、中研网数据、中国互联网数据平台、Tencent大数据、国家数据,中国统计信息网等。
? 市场调研
线上问卷调查(如问卷星)、线下问卷调查、电话回访等。
03数据的整理收集完数据,下一步就是要做数据的整理了,数据整理是一项很繁琐很枯燥的工作。
? “三心二意”的整理数据:
◎信心:无论多少数据,相信自己一定能干掉它;
◎细心:1%的错误=100%的失败,注意每一个细微之处。
◎平常心:加班、电脑死机,App无响应,一定要淡定!
◎诚意:对数据严谨负责,诚心诚意,保证数据客观真实
◎合意:要满足领导和业务部门的需求,及时沟通。
? “火眼金睛”的整理数据:
◎数据的异常表现:
空值、重复值、缺失值、波动太大、不同数据源获取的数据矛盾,数据与常识或经验矛盾等。
◎数据异常原因分析:系统故障,人为因素
?“按部就班”的整理数据(记得数据源备份一下哦)
◎数据分类化:每类数据命名并统一格式
◎数据统一化
数据口径的统一化,也就是同一维度的数据单位要一致。举个例子:二手车的行驶里程里面的数据不能有单位是“公里”的还有单位是“万公里”的,所有的数据要换算成同一单位。
数据定义的统一化,举个例子,新增对普遍人来说就是新注册用户,但在这个总数据里头,仍需细分,内部人员注册 / 搜索引擎注册 / 其他子产品用户注册 / 公众号入口注册 / PC端的注册 / 移动端的注册 / APP端的注册…等等,在整理数据时,要细分数据指标的意义。
◎删除多余的空格
◎删除重复值
◎填补缺失值(统计计算值填充,模型计算填充等)
◎处理异常值(平均值填充,统计计算值填充等)
◎不同数据源的交叉验证。
好啦,数据的收集和整理过程中的需要注意的问题到这里就大概先容完啦,剩下的更多的是需要你在实际工作中结合实际情况去应用啦!作为一名数据分析师,你一定要学会修炼出一颗平常心,不能浮躁敷衍。记住,整理数据要“三心二意”、“火眼金睛”、“按部就班”。一起奋斗吧,加油!
最后,祝你早安,午安,晚安!