大数据分析方法(附6款超好用大数据分析工具)

1.为什么要讲解数据分析的方法?

如果把企业的发展看做是一场战役的话,那么数据分析就是这场战役中不可或缺的一支重量级军队,而数据分析方法就是这支军队的武装力量,对应着战斗机、大炮、导弹等杀伤性武器。只有牢牢掌握了这些方法、手段,才能将数据分析的威力发挥出来。

2.本文的课程目标是什么?

作为一门入门课程,本文会尽可能从一个相对全局的视角,带领大家了解下各种方法,主要目的是让大家对数据分析方法有一个整体上的认识,在以后的工作中有意识地去尝试各种方法。

3.本文的讲解思路是?

第一部分,讲解数据分析的常见应用场景以及它们的差异。

第二部分,分别讲解各场景下适用的分析方法。

第三部分,讲解一下数据分析的一般步骤。

大数据分析工程师入门20-数据分析方法

数据分析的应用场景

众所周知,企业的发展离不开数据分析的支撑,那么企业中数据分析的应用场景一般有哪些呢?我认为可以分为三种,一是了解业务现状,二是分析问题原因,三是基于数据驱动创新。接下来我们逐个展开说明。

1、了解业务现状

所谓知己知彼,百战不殆。企业的业务要想持续发展,必然要对自己有清楚的认识。因此通过数据分析的手段,将各种已经数据化的业务,进一步转变为各种指标,通过指标数据,进而对企业的各个业务有一个相对客观的认知。因此,这种应用场景占比最大,数据分析师的大部分工作内容都是在评估各个业务的发展情况以及价值产出,在此基础之上才能发现问题和解决问题。

2、分析问题原因

有了数据指标后,我们就可以对业务的实际情况有个客观的认识。这时我们会发现某些业务数据结果不理想,或者数据呈现出不好的趋势等。这时就要借助数据分析方法,来定位到问题的原因,寻求解决方案。并且在解决方案上线后,可以进行持续地追踪,观察评估方案效果。

3、数据驱动创新

数据的价值不仅仅在于客观认识当前现状,更在于可以有效帮助企业的业务决策,驱动业务创新。例如,通过数据挖掘用户的喜好,出其不意,“投其所好”,让用户有更好的产品体验,为每一个用户提供专属的个性化服务,实现精准服务,精准营销。

大数据分析工程师入门20-数据分析方法

数据分析的方法

1、搭建指标体系

前面讲到,要想了解企业的发展现状,就需要将各种业务数据收集起来,转化为各种指标,并最终汇聚成一个完整的指标体系。因为只有数据化,才能够相对客观。那么,什么样的指标体系才能准确反映企业的情况呢?这个问题我会在下一篇文章中详细解答。

指标体系中,通常使用的都是基础的统计方法,如求和、求平均、计数、去重计数、占比分析、留存率等,然后再叠加各种维度分组,形成一个庞大的指标树。

2、基于问题分析

除了搭建指标体系外,数据分析师工作的另一大工作内容是基于特定问题的分析,例如寻找最近一个季度成交额下滑的主要原因、分析日活用户会员转化率持续走低的主要因素等。这类问题相对复杂,可能一开始并没有清晰的方向,那么就需要借助一些分析手段,有目的性地探索分析。接下来我们会逐个来讲解下各个分析方法及其适用场景。

2.1 维度分解

维度分解是最常用的分析手段,当一个异常数据指标过于宏观时,可以通过对其多种维度的拆解分析,将其微观化。例如,遇到日活下降的问题,可以分析地区、应用版本、时段、渠道、系统版本、终端型号等维度的日活趋势,从而获取更加精细的数据洞察,寻找可能的影响因素。

这种方法通常用于一个比较大的问题且有些无从下手时,通过维度分解,先把指标拆细,然后再针对疑点继续追踪深挖。

2.2 漏斗分析

漏斗分析,又叫转化漏斗,顾名思义,就是将一个特定过程的多个步骤间的转化情况,以漏斗的形式展示出来,通过图形直观地发现流失最严重的环节,从而有针对性地去进行优化。

漏斗分析解决的是关于流程的问题,一切流程转化的问题都可以使用这个方法来直观地分析。

2.3 留存分析

留存分析是观察不同的用户特征、行为、活动刺激等对留存率的影响大小的一种分析方法。它的主要目标是找到影响用户留存的关键因素。因为,获取用户是有一定成本的,如果新获取的用户大部分都留不住,那么拉新的投入产出比就会很低。

因此,留存分析常用于如何提升用户留存率这类问题的分析中。

2.4 矩阵分析

矩阵分析,又叫象限分析,是借助二维或者三维坐标系,将要分析的几个对象的指标逐个填入坐标系的对应位置,从而完成合并归类的一种分析方法。例如,针对渠道拉新质量的分析,可以将每个渠道的新增用户数和活跃用户数填入二维坐标系中,如下图所示:

大数据分析工程师入门20-数据分析方法

通过上图可以轻松地完成渠道归类,针对不同类别采取不同的优化策略。因此矩阵分析适合需要做简单归类的问题。考虑到前面提到的留存问题,你也可以把平均留存率这个指标放进来,成为一个三维的坐标系。

2.6 AB测试分析

AB测试分析,是通过将用户或者其他因素进行分组对照试验的方式,收集相关数据,并评估对比各方案的优劣。AB测试分析,被认为是最科学的数据分析手段之一,因为它尽可能地排除了其他干扰因素,有成熟的统计学理论做支撑,而且试验结果一目了然。

2.7 其他分析方法

还有很多其他的分析方法,如相关性分析、聚类分析、行为轨迹分析等,各有自己的应用场景。篇幅有限,就不一一介绍了,在实际工作中,通常是将多种方法结合着使用,效果更好。

3、基于场景分析

数据驱动业务创新,多数情况下都是需要从现有业务数据中挖掘出有价值的信息,汇聚成对业务的认识知识,并进一步将知识应用到产品中去的智慧。从应用角度,可以分为两类,一是融入到现有产品业务中,提升服务能力,优化用户体验;二是基于分析结论,创造新的产品,新的业务。下面我举两个例子来说明下:

3.1 用户画像

大多数的公司,尤其是ToC的互联网公司,都会构建自己的用户画像。构建用户画像的目的和好处也是显而易见的,那就是可以提升用户体验,为用户提供更多个性化的服务。而用户画像的构建过程就是基于各种数据分析完成的。

3.2 商业智能

基于已有的业务数据,深入挖掘用户的使用习惯,从而开拓新业务的案例也是屡见不鲜。最知名的案例之一,就是Netflix公司基于用户的观影数据,深入挖掘用户的喜好,大胆预测了《纸牌屋》这部美剧的受欢迎程度,使得这部当时普遍不被主流媒体看好的政治题材作品,得以和广大观众见面,并取得最后的巨大成功。

大数据分析工程师入门20-数据分析方法

数据分析的一般步骤

这一部分我们来讲解下,数据分析的一般步骤,这些步骤并不是要教你按部就班、教科书般一步不落地去这样做数据分析,而是告诉你一种思路,在你毫无头绪时,可以试着用这个步骤帮你找到思路。

主要步骤大致分为以下五步:

第一步,感知问题

这一步的目标是找到核心问题。有时可能同时接到好几个问题,在动手分析前,先要看下几个问题是不是有关联关系,相关的问题应该合并在一起分析,这样可以提升效率。有时你接收到的可能只是一个现象,你要把现象进行拆解,转化成要解释的问题,才能进行下一步的分析。举个例子,有人告诉你日活数据异常,这只是一个现象,不是一个问题。什么是数据异常呢?是指日活降了算异常,还是日活下降幅度过大算异常,还是日活趋势不符合历史规律算异常?一定要把现象转为具体的问题,才好进行下一步。

第二步,提出假说

这一步的目标是找到排查的方向。在一开始的阶段,可以尽可能地头脑风暴出,有可能相关的因素,然后根据每个因素的相关性或影响权重排列优先级,最后收敛到几个重要的因素上。这个过程中可以采用MECE法则,相互独立,完全穷尽,找出所有相关要素。

所谓的假说,就是一套解释模型,直白点说就是在逻辑上成立的,因素间相互影响的逻辑链的推断。这一步也是非常关键的,不能有太多要排查的点,不然效率非常低下,最后也会发现多数都是死胡同,白白浪费了工作量。另外,要先发散再收敛,不要一开始就凭经验确定几个点,这样可能会忽视掉新的因素带来的影响。

第三步,选择表征

数据分析界有句话广为流传,“一切不能被量化的,就无法被优化”。道理非常简单直白,无法用数据量化的,就没法评估是否被优化了。

这个阶段的目标是找到量化指标,通过数据来定位问题。量化的办法有很多,和具体的业务场景有很大的关系。举个例子,如果你要排查的问题是播放量下降过多,你提出的其中一个假说是,近期电影频道没有好的内容,可能导致用户找不到好看的电影,进而导致整体播放量下滑。那么,你至少要选取两个指标,一个是对比分析各频道节目播放量下滑比例和下降绝对值,看下电影频道是不是下降最突出的那个,二是电影频道播放量和总体播放量趋势的对比,看下电影频道和总体的数据趋势是否保持高度一致。

选取指标时,也不是越多越好,尽可能要收敛到重要的指标上,避免过于发散,耗费巨大人力。

第四步,收集数据

“巧妇难为无米之炊”,有思路没数据,也是白搭。不过,对于互联网公司来说,通常数据不是大问题,在目前国内还相对开放的环境下,数据收集通常都会在产品设计时就考虑进来了。不过,这里也要提醒一点是,不要受数据的限制,有时没有直接数据,但是可以通过一些其他的指标间接达到目的,也是可以的。

第五步,分析验证

有了前四步的准备,这一步就是顺水推舟的事情了。通常使用常规的数据统计方法结合前面讲到的几种数据分析方法都是可以解决大部分的数据分析问题。这里要强调的是,数据分析后得到的数据和结论,一定要经过验证,否则容易出错。验证的方法有很多种,首先是可以查看一下分析结果数据,查看是否存在疑点,如果有,就一定要找到原因;另外,也可以通过其他指标来侧面验证下结论,或者是基于结论做下简单推导,然后用数据验证推导后的结论是否正确。在没有更多数据的情况下,还有一种方法,就是把你的分析和推导过程讲给另一位分析师听,检验是否存在漏洞。

六款超好用的大数据分析工具

一、大数据分析工具——Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

六款超好用的大数据分析工具

二、大数据分析工具——思迈特软件Smartbi

融合传统BI、自助BI、智能BI,满足BI定义所有阶段的需求;提供数据连接、数据准备、数据分析、数据应用等全流程功能;提供复杂报表、数据可视化、自助探索分析、机器学习建模、预测分析、自然语言分析等全场景需求;满足数据角色、分析角色、管理角色等所有用户的需求。

六款超好用的大数据分析工具

三、大数据分析工具——Bokeh

这套可视化框架的主要目标在于提供精致且简洁的图形处理结果,用以强化大规模数据流的交互能力。其专门供Python语言使用。

六款超好用的大数据分析工具

四、大数据分析工具——Storm

Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

六款超好用的大数据分析工具

五、大数据分析工具—— Plotly

这是一款数据可视化工具,可兼容JavaScript、MATLAB、Python以及R等语言。Plotly甚至能够帮助不具备代码编写技能或者时间的用户完成动态可视化处理。这款工具常由新一代数据科学家使用,因为其属于一款业务开发平台且能够快速完成大规模数据的理解与分析。

六款超好用的大数据分析工具

六、大数据分析工具——Pentaho BI

Pentaho BI平台不同于传统的BI产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。

六款超好用的大数据分析工具
(0)
季候的头像季候注册用户

相关推荐

发表回复

登录后才能评论