• 发文
  • 评论
  • 微博
  • 空间
  • 微信

大数据分析和传统数据分析之间的关系和区别

数据人生 2019-12-10 17:57 发文

  大数据分析与传统统计分析的区别:其一是数据分析时不再进行抽样,而是采用全样本(n=all);其二是分析方法,不再采用传统的假设检验。

  一、统计方法:

  大数据的应用,解决了一般统计方法上主要误差来源:抽取样本以及假设检验中使用的前提假设。

  一般统计方法中依据的中值定理和大数定律阐明我们可以通过增大样本容量,且多次抽取样本使得结果更加精确,但这一结论成立的条件在于所有样本的抽取满足i.i.d.(independent and identically distributed,即假设变量分布独立且相同),而这一假设在现实中很难满足。样本的选择很难做到完全随机。一般商业案例中采用的隔多少位抽取样本的方法在统计学意义上不满足随机要求,所得结果误差在所难免。

  类似,多大的样本才算足够大也存在争议,而大数据直接采用全样本(population)来进行分析可以消除这一部分造成的误差。

  二、分析方法:

  传统分析方法是对需要回答的问题作出一定的假设,例如教育背景对保险购买金额有影响,然后根据这一假设在所抽取的样本上进行检验。而检验假设这一方法就充满着现实数据不满足的前提假设,比如最著名的正态分布。正态分布是一个很好的假设,因为它能简化计算,而且通过对数据的各种变形,基本上也可以在一定置信区间内勉勉强强算为正态分布。

  再次,假设检验的结果只能不否认原假设,并不能得出完全支持的结论。

  但大数据的情况就不一样。对大数据进行分析时,我们并不需要对问题提出假设,而是通过算法找出变量之间的相关度。以上例子中,如果教育背景和保险购买额这两个变量间相关度高(e.g.接近1),那么保险公司就应该更主要针对高教育背景的人推销保险。

  大数据分析和传统数据分析之间的关系和区别.中琛魔方大数据分析平台表示大数据的应用可以说是减少人类处理数据时主观假设的影响,完全依靠数据之间的相关性来阐述。由于消除人为因素带入的误差,分析人员做出了假设性的限制(如果教育背景与保险购买额相关,而分析人员没想到,那这个结论就不会被分析出来,这在实际案例中是很容易发生的),大数据的核心也就在于它能更充分的发掘数据的全部真实含义。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    数据人生

    专注数字化技术自主创新与智能应用...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码