`

大数据进行时

阅读更多
请关注新浪微博 账号:大数据进行时(http://weibo.com/u/3272022684

最近Gartner发布了2013年度BI和分析的魔力四象限图,同时Wikibon也发布了2013年大数据市场预测,两份报告都明确指出,随着分析正在成为企业IT的核心,昔日的BI-ETL-EDW分析范型已经完全落伍,不再适用。

  2013开年不久,一连串的重大事件的发生标志着大数据和分析领域正在加速演进,对于数据分析专业人士和企业管理者来说,2013年是大数据进入企业应用的关键一年。

  近日Alteryx公司总裁乔治马修(George Mathew,Twitter帐号@gkm1)与大数据领域的著名专家Mayank Bawa、Mike Olson和Scott Yara就数据分析的传统范型(BI-ETL-EDW)即将被新的分析范型取代达成共识,几位专家认为全新的数据分析平台将消除当前分析软件在设计和实施方面的延迟和低效率,从根本上重新思考和定义三大阻碍企业7数据分析应用的关键问题:数据管理、分析透明度以及用户应用。

  以下是马修在博客中对新数据分析范型三大演进方向的解读,IT经理网编译整理如下:

一、数据管理

  Hadoop已经成为企业管理大数据的基础支撑技术。最近随着Greenplum Pivotal HD、Hortonworks Stinger和Cloudera的Impala的发布,Hadoop的技术创新速度正在加快,上述Hadoop项目传递出一个非常明确的信号:主要的Hadoop发行商想要在Hadoop HDFS之上提供实时、互动的查询服务。这个趋势将两个领域的杰作整合到了一起:众所周知的SQL查询处理与具备指数级扩展能力的HDFS存储架构。参考阅读:Hadoop发行版升级,NoSQL的未来是SQL?

二、去黑箱化

  预测分析是管理者进行数据化决策的关键。目前预测和统计分析领域已经已经有很多技术可以帮助企业洞察不远的未来。但预测分析眼下面临的的最大问题是“黑箱”化。随着企业领导越来越多地以来预测分析技术做出重大商业决策,预测分析技术需要去黑箱化:包括应用自描述数据沿袭,增加对底层数学和算法解释等。“去黑箱化”有利于企业管理者学会彻底驾驭数据分析工具,不但看到数据分析结果,还知道分析是如何得来的,分析工具的设计原理等,这有助于管理者增加对预测分析的信心,而不是过去那样完全依靠“信仰”。

三、应用普及

  即使实现了分析的去黑箱化,企业数据分析应用在企业中的部署依然面临以下几个方面的挑战:发布可复用应用,创建最佳实践、组织范围内的横向协作,无缝重组模型等。在最终用户(员工)中的应用普及是数据分析成功的关键。例如建设一个专门提供分析应用的企业移动应用商店App Store往往能大大加快数据分析的应用普及。

  新数据分析范型的重要特征:

  新的数据分析范型是目标导向的,不关心数据的来源和格式,能够无缝处理结构化、非结构化和半结构化数据。能够输出有效结果;能够提供去黑箱化的预测分析服务,能够面向更广泛的普通员工快速部署分析应用。

  最近Gartner发布了2013年度BI和分析的魔力四象限图,同时Wikibon也发布了2013年大数据市场预测,两个报告都明确指出,随着分析正在成为企业IT的核心,昔日的BI-ETL-EDW分析范型已经完全落伍,不再适用。新的分析范型正在崛起,以下是我们能看到的未来趋势:

  Hadoop(和NoSQL)正在颠覆我们对PB级别大数据的管理方式。

  R和Stata的崛起,正在冲击传统分析学术圈的的黑箱式分析方法,这也代表着商业世界的发展趋势。

  分析应用将不再是数据科学家的专利,更多分析应用将以预先打包的内容和应用发送到分析人士和企业员工的手中。

转自http://news.xinhuanet.com/info/2013-04/16/c_132311587.htm

大数据分析,请看下篇,R语言之旅
http://quasimodo-es.iteye.com/blog/1851000
分享到:
评论

相关推荐

    大数据技术分享 大数据进行时 Cloud 2.0 共11页.pdf

    大数据技术分享 大数据进行时 Cloud 2.0 共11页.pdf

    基于聚类权重调度的大数据采样技术

    传统方法中对大数据的采样技术采用奈奎斯特采样定律,当大数据的特征信息出现非线性特性时,采样精度不高。提出一种基于聚类权重调度的大数据采样技术,进行大数据的分布式数据结构分析和时间序列模型构建,采用模糊C...

    医疗大数据内容.docx

    而不同的个人信息对应不同的法律保护规则,因此有必要对医疗大数据进行法律分类。 分类的前提是确定分类标准。鉴于本文旨在探讨医疗大数据的法律规制,而法律规制的目的在于平衡个人权利与他人权利,即所谓"群己权界...

    数据分析-大数据

    分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型...

    大数据的危害.docx

    作为海量、多样、非结构化、高增长的信息资产,大数据几乎可以帮助一切行业进行更为精确的分析、检测、预测与判断。但是当每个人的生命变成数字资产时,对个体来说,如何保护这种资产,就成为一个新命题。简单说,...

    大数据测试类型&大数据测试步骤

    当涉及到大数据测试时,性能和功能测试是关键。在大数据测试中,QA工程师使用集群和其他组件来验证对TB级数据的成功处理。因为处理非常快,所以它需要高水平的测试技能。处理可以是三种类型:批量、实时、交互。...

    大数据论文3000字.doc

    对社会大数据进行历 时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。 在大数据概念出来之前,个人制造的数据往往被忽略,企业数据被谈及的更多。企业内 部的数据多数都是结构性数据,并...

    大数据技术之一“数据标识”.pdf

    由大量数字或是数据进行运算,可以得到精确结果的方法是 统计学,应该叫做大统计比较好,不是大数据。 2 大数据精准使用需要"数据标识" 2.1 "数据标识" 的原理和方法 人类科技发展是向着更精准、 更智能化的方向发展,...

    论文研究-用于大数据分类的KNN算法研究.pdf

    针对KNN算法在处理大数据时的两个不足对其进行了研究,提出多层差分KNN算法。算法对已知样本根据类域进行分层,既避免了传统改进算法中剪辑样本带来的判别误差,又大大降低了无效的计算量;同时在最后一层采用差分的...

    大数据安全与隐私保护.pptx

    目前人们开始尝试利用大数据进行虚假信息的识别。 大数据安全与隐私保护全文共24页,当前为第5页。 大数据技术框架 数据解释 旨在更好地支持用户对数据分析结果的使用,涉及的主要技术为可视化和人机交互。 数据...

    大数据平台项目建议书.docx

    大数据平台项目建议书 建议书是个人或者单位有关方面为了开展某项工作,完成某项任务或进行某种活动而倡议大家一起做什么事情,或提出合理化的意见,建议时使用的一种文体,也叫意见书。以下是小编为大家收集的建议...

    大数据机器学习框架大数据机器学习框架

    现有的机器学习框架/软件包存在几个问题: 无法处理大数据:多数Python,Matlab和R写的训练框架适合处理规模小的样本,没有为大数据...高度可读性:代码规范,注释和文档尽可能详尽,适合初学者进行大数据模型的学习。

    大数据论文3000字(1).doc

    对社会大数据进行历 时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。 在大数据概念出来之前,个人制造的数据往往被忽略,企业数据被谈及的更多。企业内 部的数据多数都是结构性数据,并...

    大数据下的快速KNN分类算法

    该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K...

    基于大数据的电池健康状态(SoH)的估算及应用.pdf

    结合某平台的在线大数据进行了此方法的集成应用,对单车以及分 车辆品牌、分地域、分时域进行了多维度的电池 SoH 衰减比较验证。结果表明:此方法能够有效估 算单个动力电池系统的 SoH 及其变化,并且能够与其他数据...

    《大数据技术原理及应用》课程报告

    2017学年在学习《大数据》这门课程时进行的实验记录和撰写的实验报告。

    大数据与大数据经济学.doc

    其次,对于以往传统的经济学研究来说,当人们进行经济学研究时,一定要先 提出一个假设,然后再根据假设来制定出合理的数学模型,才能够进行下一步的统计和 检验,从而来验证自己的假设是否正确,但是当大数据出现...

    大数据应用案例分析报告.doc

    而大数据技术能将不同设备产生地海量日志进行集中存储,通过数据格式地 统一规整、自动归并、关联分析、机器学习等方法,自动发现威胁和异常行为,让安全 分析更简单.同时通过丰富地可视化技术,将威胁及异常行为...

    大数据与云计算.docx

    微软公司全球资深副总裁、微软亚太研发集团主席张亚勤博士接受记者采访时说。 虽然有多种解读,但业界一般认为,大数据有四个""字开头的特征:Volume(容量),Variety(种类),Velocity(速度和最重要的Value(价值)Volume...

Global site tag (gtag.js) - Google Analytics