Ebpay

    亿信ABI

    一站式数据分析平台

    ABI(ALL in one BI)是Ebpay历经18年匠心打造的国产化BI工具,技术自主可控。它打通从数据接入、到数据建模与处理、再到数据分析与挖掘整个数据应用全链路,可满足企业经营中各类复杂的分析需求,帮助企业实现高效数字化转型。

    在线免费试用 DEMO体验 视频介绍

    亿信ABI

    一站式数据分析平台

    Ebpay深耕商业智能十多年,
    打造一体化的填报、处理、可视化平台。

    怎么培养数据分析的能力?

    时间:2019-06-03来源:知乎浏览数:611

    先从问题本身来回答一下,培养数据分析的能力,简单说就是  理论+实践 理论:是进行分析的基础1)基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。实践:可以说90%的分析能力都是靠实践培养的1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉分析业务可以使数据看起来更加透彻;3)分析数据的定义和获取。最好从数据最初是怎么获取的开始分析,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的分析要深入得多,就是这个原因。

    这是一个相当宽泛的问题,人们对于数据分析的看法往往会随着所处环境的差异而发生变化。比如说,人们通常并不会期望高级管理者亲自清理数据,优化和检验模型。但是,当他们手握分析师整理好的报告时,阅读和理解图表的能力是不可或缺的,如果能够从蛛丝马迹中发现潜在的问题则更好。这是否也可看作一种数据分析的能力呢?在学校里,学生提交的作业中可以对同一个项目有各种不同结论,老师的评价标准也许涵盖了从写作规范到方法科学性的很多方面。但对公司来说,结果是最主要的衡量标准。即使是一个以掷骰子制定策略的团队,如果常常能够取得成功,那么他们同样会有很高的KPI。不难设想,如果把数据分析的任务结合到业务里具体的场景,那么这个任务的成败将不是一个单纯的技术问题,比如:能不能实行各部门的协调沟通,得到所需要的数据,就是第一个挑战。即使有了数据,也要看质量好坏。在行业里一句谚语叫Garbage in, garbage out,好数据+简单模型通常远胜于坏数据+精妙模型。为了避免大而无当的讨论,在这里,我们不妨把问题限定的更狭窄一些。那就是,如果将数据分析看作一项独立的工作,应该怎样改善工作的质量。

    这可以从两个方面来分析,一个是思维模式,一个是方法论。

    一、思维模式层面基于数据来进行决策,也即Data Driven,是一种思维模式。比如说,当你想要在一条街上选择某家饭馆吃饭时,你可以询问朋友推荐哪一家,也可以打开某个点评类的App(比如Yelp)来比较用户的打分。粗略地说,前者可以说是基于专家系统的决策方式,而后者则是基于数据的思维模式。召开数据分析的工作,从最原初的动机来说,一定是源于这种思维模式。仅从前面的例子来看,我们很难断定,查看评分就一定比求教朋友更加靠谱。朋友也许更加分析你的口味,而基于打分则需要警惕数据的不可靠性(比如水军)。因此,从一般的角度来讲,基于数据的思维模式,本身并不具有天然的优越性。路边小饭馆的老板即使不做数据挖掘,也能大致估计什么时候顾客多,什么时候顾客少。对于绝大多数普通人来讲,我们在生活中所做的决策,也未必都是基于数据的,比如人与人之间的情感。当我们认识到这一点的时候,就会发现,用数据来说话,未必是人类的天性,而是一种需要后天训练和培养的习惯。怎样在适当的场景下主动地选择这样的一种方法,是一种需要学习的能力。创造性的在新场景中利用数据分析,则有可能构建一个新的体系,比如现代的计量历史学。思维模式看起来是很玄奥的一个概念,然而数据分析所依赖的基础学科,概率论与数理统计,本身就具有这样的玄奥性(犹如量子力学)。笔者在读书时曾听一位有名的统计学家开玩笑说,统计学是一种神学,或曰信仰,彼时还不以为然。但多年后笔者在给本科生讲统计入门课程的时候,第一时间告诉学生的就是概率论学者Bruno de Finetti的名言:“Probability Does Not Exist.” 概率论领域众所周知的两大学派之争:频率学派 vs. 贝叶斯学派,如果从根源来考察,恰好对应于启蒙时期的大陆理性主义和英国经验主义——再往上大概就得到柏拉图和亚里士多德。很多细枝末节的分歧,高度抽象后都可以解释为思维模式的差异。对于各位有志于从事数据分析的同学来说,不妨常常思考这些根本性的概念,正如在游戏《异域镇魂曲》中的那个著名问题:“WHAT CAN CHANGE THE NATURE OF A MAN?”

    二、方法论层面从方法论的角度来说,数据分析的能力可以从字面上分为数据与分析两部分。有人估计,在数据分析师的工作中,前期的数据清理工作就可能占据70%的时间。这未必是一个很理想的状况,但这也是一个现实的状况。尤其在互联网公司中,管理者往往期待数据方面的人员能够给予一揽子解决方案,犹如大家常说的“全栈工程师”。对于长期从事数据分析工作的人员来说,一些基本的能力也是在不断的实践中自然积累的,正如一个老司机通常总会有点修车的经验。数据的质量检验,比如缺失值和异常值的处理,现在都已经有大量的方法和现成的软件包以供使用。

    从惟结果论的角度来说,即使一个人完全不知道什么Missing at random或Missing at complete random,跑跑程序总是容易学会的。评估结果,大致也有现成的标准。但是笔者仍然希望提示一点,那就是技术要基于实际场景。比如在资源有限的情况下,采用基于模型和蒙特卡洛模拟的方式来进行缺失值填补是否值得,是需要思考的问题。从输入到输出的过程,在统计学人们常称之为模型,在机器学习领域人们常称之为算法。模型这个概念隐含了“模型假设”这一内涵。所有学过基本的线性回归的同学都知道,做完之后要进行各种检验,看看模型假设是否满足。有一些模型对于假设的依赖性较弱,也即数据不完全满足假设的情形下结果依然可控,这通常被称之为稳健性模型。而对于分布不做假设(如正态分布)的模型则通常称为非参数模型。比较模型拟合与实际情况差异时,统计学家常常会使用方差+偏差(二者不可得兼)作为整体的衡量标准。这套思维模式,对于机器学习的用户而言过于理想化。机器学习中常见的思维模式就是把一切问题归结到优化,优化的目标是损失函数最小,而衡量的方法则包括交叉验证(Cross Validation)等强调预测能力的手段。

    机器学习用户对于诸如p-value,asymptotic(渐进性)这样的概念,正如贝叶斯学派一样,通常不以为然。同样的一个东西,比如Logistic 回归,有人认为是最小化损失函数,有人认为是求最大似然估计,有人则认为要研究posterior sample,这些都很正常。因为教育和工作背景的不同,人们对于数据分析往往会有自己的一套方法论,一种方法论只要能够满足实际工作的需求,就应该得到正视。至于具体的技术,诸如支持向量机,决策树,深度神经网络,网上的文献汗牛充栋,笔者就不再一一列举了。

    对于数据分析的结果,不同角色的人会期待不同的展示方式。如果老板只有一分钟的时间看你的结论,那么最好不要把事情说得过于复杂。数据分析本身并不具有生产力,只有落实到具体的业务才有可能创造改变。怎样能够有助于整个流程,最终让数据分析具有真正的价值,是一个复杂的问题,已经超出了本文的范围。

    (部分内容来源网络,如有侵权请联系删除)
    立即申请数据分析/数据治理产品免费试用 我要试用
    customer

    在线咨询

    在线咨询

    点击进入在线咨询