视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
大数据时代的统计分析
2025-10-02 15:00:50 责编:小OO
文档
大数据时代的统计分析

作者:***

来源:《科技创新导报》2018年第01期

        摘 要:大数据对社会经济的各个方面产生的巨大影响,本文讨论了大数据下的统计思维原理:总体代替抽样可以改善取样分析的准确性;用相关代替因果,在一定程度上对研究有量变引起质变的作用;接受数据不准确和不完美,可以更好地模拟和了解世界。基于这一原理,讨论统计业务,如数据搜集、数据处理和数据应用所面临的挑战。

        关键词:大数据 统计分析 总体 相关 近似

        中图分类号:G 文献标识码:A 文章编号:1674-098X(2018)01(a)-0166-03

        随着物联网、云计算、传感器的快速发展,大数据已经引起全球广泛的关注[1]。企业的IT高管们已然开始意识到,如果没有强大的分析系统,大数据几乎没什么价值。所以,最关键的并非大数据本身,而是数据价值的获取。如果企业管理者能够从他们收集的数据中得到真实的信息,他们可以做出更好的决策,并提升企业乃至整个行业中的地位。

        小数据统计的最基本的思想就是抽样方法,利用样本的信息去估计总体信息以减少不必要的损失。其中最常见的应用就是,在测量某家厂商生产电视的寿命时,不必每一台都去测量,而是从中取出样本测量,再利用样本和总体的关系,得到总体的电视寿命的大概分布,再利用抽样检测,验证其分布是否合理[2]。

        与小数据统计不同,大数据统计不用随机抽样调查,而采用全员数据参与的方法。当数据积累到一定程度之后,数据就会引发质变。也就是说,样本容量越大,收集的信息就越多,

        从而估计的精度就越高,但进行观察所投入的费用、人力和处理时间就越长。抽样方法,虽然节省了进行观察所投入的费用、人力和处理时间,但由于收集的信息有限,影响了估计的准确性,在小数据时代,这是个统计两难问题。而今天,在计算机处理能力日益增长,特别是互联网(包括移动互联网)的发展、传感技术的广泛应用,使得统计所需要的样本的获取变得轻而易举,或者说大数据时代给统计科学带来了新的生机。大数据价值获取主要体现在以下几个方面[2]。

        (1)可视化分析。

        数据可视化分析能够客观地、直观地认知数据,其基本原理是借助于图形化技术,直观地传达数据潜在的特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。让数据分析人员更深入地观察和分析,实现更好的用户体验。

        (2)数据价值挖掘。

        数据价值挖掘指从大量有噪声的、不完全的、随机的、模糊的数据中,提取隐藏在数据中的、有用的信息和知识的过程。挖掘的结果是数据分析报告的素材,挖掘的越深,数据故事讲得就越精彩。数据价值挖掘是数据分析的基本任务。

        (3)预测。

        大数据分析最要的目标之一就是预测分析,其基本思想是根据客观事物的已知信息,推测和评估估计事物在将来的某些特征和发展状态,从而减少对事物认知的不确定性,减少决策的盲目性。

        要实现大数据分析这些技术,必须要树立大数据时代的数据统计理念。

        1 大数据时代的数据统计理念

        1.1 总体取代抽样

        在小数据时代,统计分析往往用尽可能少的样本来证实总体的假设,所以,一般采用随机抽样,随机抽样方法存在以下缺陷。

        (1)随机性不容易保证;

        (2)泛化能力差;

        (3)忽略了细节;

        (4)对奇异值敏感。

        随着计算机技术、网络技术、通信技术的发展,能很容易获取来自传感器、网站、视频等数据,计算机的处理能力越来越大。所以,在大数据时代,统计分析不是依靠少量的样本抽样数据,而是依靠总体数据。如Google的流感趋势预测是在分析了几十亿条互联网社交数据而得出的结论。总体取代抽样能够提高微观层面分析的准确性。

        “样本=总体”是大数据时代数据统计的准则,这种巨大的调整,意味着统计重心需要转移。

        如果说小数据时代的统计分析的重心在于如何获取数据,那么在大数据时代,则重心在于如何选择有用数据[4]。

        数据多比数据少要好,更多数据比算法系统更优化还要重要。

        1.2 相关关系取代因果关系

        相关关系应该说是统计科学发展的基础,虽然有大量的理论是以逻辑推导得来的,但还是有相当一部分是先发现相关关系,再研究因果关系。

        针对传统统计分析中的因果关系难以确定的缺陷,在大数据时代,更注重相关关系的发现。相关关系指我们在观察研究对象X,Y时,如果发现,X的变化总是与Y的变化同步,那我们就说X和Y是相关的。事实上,我们可以确定的所有关系都是相关关系,但我们无法得出因果性结论,相关关系应该只与变量之间连动性的紧密程度有关,而不应受变量间形式的影响。相关关系具有“普遍性”,运用范围之广、重要性之大是我们不能忽略的。传统的统计方法已经无法满足发现相关关系的业务需求,面临巨大挑战和机遇。

        从理论上讲,相关关系是发现因果关系的基础,快速排除不必要的行为。特别在研究复杂系统时,采用相关关系分数线因果关系具有更高的效率。相关关系的研究是一种提高研究效率的方法,在一定程度上对研究有量变引起质变的又积极作用。

        文献[5]指出:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声,相关关系能够帮助我们更好地了解这个世界。”建立在相关关系分析法上面的预测是大数据的核心。通过找到“关联物”并监控它,我们就能够预测未来。

        1.3 近似取代精确

        精确的、规范化的、可以被传统数据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外的95%[6]。

        在大数据时代,近似性不是竭力避免,而是一种标准途径[7]。在小数据时代,数据分析的目的就是防止发生错误,所以,在收集样本时,数据分析师会用明智的策略来减少错误数据,但实施规避错误发生的策略非常耗费。尤其是当我们收集的数据大到一定规模时,规避错误发生的策略就行不通了,不仅是因为处理成本加大,还因为在海量数据上保持数据的一致性不太现实。

        大数据时代要求我们重新看待数据精确性的内涵。如果将小数据时代的思维模式运用于大数据上,就会错过许多挖掘有价值数据的机会。

        执迷于数据精确性是“小数据时代”的产物,因为在“小数据时代”,任何一个数据都对结果有影响,所以,只有保证数据的精确性,才不会导致分析结果出偏差。

        如今,我们掌握的数据库越来越全面,不需要再担心某个数据对总体分析的产生的不利影响。我们要做的就是要接受这些不精确的数据,并从中受益,而不是以高昂的代价消除数据的不精确性。

        大数据让我们接受数据的不精确和不完美,除了一开始会与我们的直觉相矛盾之外,随着数据的增多,“近似”反而能够更好地地理解世界。

        2 统计业务的变革

        一个新生事物的出现将必定导致传统观念和技术的。小数据时代统计学最得意的回归预测方法面临考验[8]。

        大数据时代的数据统计的“总体、相关关系、近似”特征,增强了统计学的生命力,意味着统计业务将发生如下变革。

        2.1 数据搜集

        数据的搜集和存储是大数据分析和数据利用的前提。如果没有大量的数据,再强大的分析能力也是“巧妇难为无米之炊”。在搜集和存储数据方面,要有长远的眼光,会分析的数据要搜集,不会分析的数据也要搜集。等到新的数据分析方式出来之后再开始搜集数据就已悔之晚矣。

        随着传感技术的发展,收集数据变得十分简单而且成本超便宜。即使你仅仅在讨论区留言、Twitter 或 FB 发表一段文字,它都会变成新的信息,成为大数据的一部份。可以说你的生活离不开这片无限巨网,即使你不上网,手上的付款装置同样有机会出卖你,让你成为大数据提供者之一,所以,传统的统计抽样调查不再适用。

        2.2 数据处理

        提高对数据的分析能力是大数据价值体现的核心。再利用传统的统计方法无法得到我们期望的结果,这就需要我们对统计方法进行创新与发展。大数据统计分析是以相关关系为基础展开的,它不同于传统的因果关系分析,因果关系分析基本是线性相关分析,而相关关系分析的不仅是线性相关,更多的是非线性相关以及不明确函数形式的线性关系。

        2.3 数据使用

        让数据说话,用数据提高数据的决策效率和决策质量是大数据分析的最终目标。用户一般情况下是不知道自己需要什么,但大数据知道。通过价值挖掘,数据会告诉管理者,用户需要解决的问题是什么。让数据说话就是写出有分量、有价值、能辅助决策的数据分析报告,这样的报告不是用数据证明你的结论,而是如何讲清楚数据的故事。一般需要特别关注:(1)业务的改变,(2)异常数据。

        3 结语

        大数据不是基于人工设计的数据,也不是借助传统方法获得的数据,而是基于现代信息技术自动记录、储存和扩充的数据。通过对大数据特性分析找出大数据与统计学的联系,进一步了解在大数据时代下,统计学所处的地位以及大数据时代下统计学的变化和发展。

        参考文献

        [1] 大数据时代到来百度大规模机器学习算法受追捧.2014-03-21第48期百度技术沙龙,http://tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.

        [2] 吕浩.数据统计与分析 http://wenku.baidu.com/link?url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNkXvgevIf1uLzUcz-FCK7LYATn_m

        [3] 李国杰.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2013(6).

        [4] 邱东.大数据时代对统计学的挑战[J]。统计研究,2014,31(1):16-24.

        [5] 维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013(中文版).

        [6] B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4):408-413.

        [7] 朱建平.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19.

        [8] Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks,2012,24(2):125-131.下载本文

显示全文
专题