18
2019
04

你是否真的在做数据分析

很多新手数据分析师在数据分析的过程当中,并不注重数据本身的描述,拿过数据便眉毛,胡子一把抓,甚至有些数据分析师连数据清洗都不做。而且会产生各种各样的错误,导致业务人员觉得数据分析是在浪费时间,实际做出的分析结果并不符合实际业务的需求,仅仅是简单的套用各类的分析算法,分析模型。


在实际做数据分析过程中,应当首先做的就是对数据进行清洗,消除异常缺失数据,并且对数据进行描述。数据清洗的第一步是识别会影响分析结果的“异常”数据,然后判断是否剔除。主要的异常判别方法如下:


你是否真的在做数据分析


 

通过各种数据检验方法,判别异常数据,将异常数据剔除或用其他数据代替,常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等:


你是否真的在做数据分析


一般在数据分析的过程中,数据是抽取到缓存库进行分析的,数据分析的过程中,切记不能动业务库数据。

清洗之后便需要对数据进行描述,这个过程是对预测分析起关键作用的步骤,大部分数据分析人员没有做这个步骤便直接进行预测分析,得出的结果往往不尽人意。主要的数据分布会有如下:


你是否真的在做数据分析


而让数据分析师困惑的,实际的业务数据往往可能不符合任何一种分布形式,主要解决方法有:

1、细分维度,将维度进一步细化,将数据筛选的更加细致;

2、仅仅对均值、最大最小值、中位值等指标进行统计分析、待数据足够多的时候,再进行预测分析。


以上便是在对数据分析之前要做的一些描述性统计,只有对这些进行统计分析之后,才可以确定使用的算法,分析算法的有效性,而不是单纯的把数据分析模型套用。当然,对于人工智能算法,大部分是基于仿生学的方式,使用机器学习的方式进行检验,但通常情况对硬件和集群的要求比较高,且收敛过程较长,其具体分析过程另说。




« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

展开