导航菜单

数据和分析的前沿包括以原生格式存储大量数据的数据湖 大数据分析的八大趋势

导读 Intuit的数据工程副总裁Bill Loconzolo用双脚跳进了一个数据湖。Smarter Remarketer的首席数据科学家迪恩•阿博特(Dean Abbott)直奔云计算而去。大数据和分析的前沿,包括以原生格
2020-03-16 15:34:31

Intuit的数据工程副总裁Bill Loconzolo用双脚跳进了一个数据湖。Smarter Remarketer的首席数据科学家迪恩•阿博特(Dean Abbott)直奔云计算而去。大数据和分析的前沿,包括以原生格式存储大量数据的数据湖,当然还有云计算,两者都说,是一个移动的目标。虽然技术上的选择还远远不够成熟,但等待并不是一种选择。

 

 

Loconzolo表示:“现实情况是,工具仍在出现,Hadoop平台的承诺还没有达到让企业依赖它的水平。”但大数据和分析的学科发展得如此之快,企业必须涉足其中,否则就有被甩在后面的风险。“在过去,新兴技术可能需要数年时间才能成熟,”他说。现在,人们在几个月甚至几周的时间里就能迭代并驱动解决方案。“那么,在你的观察列表中,或者在你的测试实验室中,最重要的新兴技术和趋势是什么呢?”《计算机世界》请IT领袖、咨询顾问和行业分析师参与讨论。这里是他们的列表。

Hadoop是一个用于处理非常大的数据集的框架和工具集,它最初设计用于处理物理机器集群。这已经发生了改变。Forrester Research分析师布莱恩•霍普金斯(Brian Hopkins)表示:“现在有越来越多的技术可以用于处理云中的数据。”例如,Amazon的Redshift托管BI数据仓库、谷歌的BigQuery数据分析服务、IBM的Bluemix云平台和Amazon的Kinesis数据处理服务。他说:“大数据的未来状态将是一种现场和云的混合。”

提供基于saas的零售分析、细分和营销服务的Smarter Remarketer,最近从内部的Hadoop和MongoDB数据库基础架构,转向了基于云的数据仓库Amazon Redshift。这家总部位于印第安纳波利斯(indianapolis)的公司收集在线和实体零售销售数据、客户人口统计数据以及实时行为数据,然后分析这些信息,以帮助零售商创建有针对性的信息,在某些情况下,实时吸引购物者的期望响应。

Abbott说,Redshift对于Smart Remarketer的数据需求来说更具成本效益,特别是因为它对结构化数据具有广泛的报告功能。作为一个托管产品,它既可扩展又相对容易使用。他表示:“扩大虚拟机业务比购买物理机器来管理我们自己要便宜得多。”

总部位于加州山景城(Mountain View)的Intuit则谨慎地向云分析发展,因为它需要一个安全、稳定和可审计的环境。目前,这家金融软件公司把一切都放在自己的Intuit分析云里。Loconzolo说:“我们正在与亚马逊和Cloudera合作,研究如何建立一个公私合作、高可用性和安全的分析云,它可以跨越两个世界,但目前还没有人能解决这个问题。”然而,对于像Intuit这样销售运行在云中的产品的公司来说,向云转移是不可避免的。他表示:“将所有这些数据转移到私有云上的成本将非常高昂。”

像MapReduce这样的分布式分析框架正在演变成分布式资源管理器,这些资源管理器正在逐步将Hadoop转变成一个通用的数据操作系统,Hopkins说。他说,有了这些系统,“您可以通过将它们插入Hadoop作为分布式文件存储系统来执行许多不同的数据操作和分析操作。”

BrandPost由HPE赞助

定义IT行业的下一个篇章:现场IT即服务

“即服务”模式提供的是服务,而不是产品;的灵活性,而不是刚度;以及与业务结果相一致的成本。

这对企业意味着什么?由于SQL、MapReduce、in-memory、流处理、图形分析和其他类型的工作负载都能够在Hadoop上运行,并且具有足够的性能,更多的企业将使用Hadoop作为企业数据中心。“对Hadoop中的数据运行许多不同类型的查询和数据操作的能力,将使它成为一个低成本、通用的地方,用来存放您希望能够分析的数据,”Hopkins说。

Intuit已经在Hadoop的基础上进行了构建。Loconzolo表示:“我们的战略是利用与MapReduce和Hadoop紧密合作的Hadoop分布式文件系统,作为一项长期战略,支持与人和产品的所有类型的交互。”

传统的数据库理论要求在输入任何数据之前设计数据集。普华永道(PricewaterhouseCoopers)美国咨询业务负责人兼首席技术官柯兰(Chris Curran)说,数据湖也被称为企业数据湖或企业数据中心,它颠覆了这一模式。他说:“它说我们将把这些数据源都转储到一个大型Hadoop存储库中,我们不会预先设计一个数据模型。”相反,它为人们提供了分析数据的工具,以及湖中存在的数据的高级定义。“人们一边工作,一边将视图构建到数据中。这是一个非常增量的、有机的模型,可以用来建立一个大规模的数据库,”Curran说。不利的一面是,使用它的人必须是高技能的。

“人们一边工作,一边将视图构建到数据中。这是一个非常渐进的、有机的模式,可以用来建立一个大规模的数据库,”普华永道的克里斯•柯兰(Chris Curran)表示。

作为Intuit分析云的一部分,Intuit拥有一个数据湖,其中包括clickstream用户数据、企业数据和第三方数据,Loconzolo说,但重点是“民主化”周围的工具,使业务人员能够有效地使用它。Loconzolo表示,他在Hadoop中构建数据湖的一个担忧是,该平台并不是真正的企业级平台。他表示:“我们希望拥有传统企业数据库几十年来一直拥有的功能——监控访问控制、加密、保护数据以及追踪从源到目的地的数据谱系。”

霍普金斯说,有了大数据,分析人员不仅有更多的数据要处理,而且还有处理具有许多属性的大量记录的处理能力。传统的机器学习使用基于总体数据集样本的统计分析。他说:“你现在有能力做大量的记录,每条记录有大量的属性”,这增加了可预测性。

大数据和计算能力的结合也让分析师能够在一天中探索新的行为数据,比如访问的网站或位置。霍普金斯称之为“稀疏数据”,因为要找到有趣的东西,你必须在大量无关紧要的数据中跋涉。试图使用传统的机器学习算法来处理这类数据在计算上是不可能的。现在我们可以利用廉价的计算能力来解决这个问题,”他说。“当速度和内存不再是关键问题时,问题的表述就完全不同了,”Abbott说。现在你可以通过投入大量的计算资源来分析找出哪些变量是最好的。这真的是游戏规则的改变者。”

Loconzolo说:“在同一个Hadoop内核中实现实时分析和预测建模,这是我们感兴趣的地方。”问题出在速度上,Hadoop回答问题的时间是其他成熟技术的20倍。因此,Intuit正在测试大型数据处理引擎Apache Spark及其相关的SQL查询工具Spark SQL。Spark具有这种快速的交互查询、图形服务和流媒体功能。它将数据保存在Hadoop中,但提供了足够的性能来弥补我们的差距,”Loconzolo说。

如果你是一个聪明的程序员和数学家,你可以在Hadoop中对任何东西进行数据分析。高德纳(Gartner)的分析师马克•拜尔(Mark Beyer)表示,这既是前景,也是问题所在。“我需要有人把它转换成我熟悉的格式和语言结构,”他说。Beyer说,虽然任何熟悉的语言都可以工作,但这正是Hadoop产品的SQL的用得上之处。支持类似SQL的查询的工具允许已经了解SQL的业务用户对数据应用类似的技术。Hadoop上的SQL“为企业中的Hadoop打开了大门,”Hopkins说,因为企业不需要对高端数据科学家和业务分析师进行投资,他们可以使用Java、JavaScript和Python编写脚本——这是Hadoop用户传统上需要做的事情。

这些工具并不新鲜。Apache Hive已经为Hadoop提供了一种结构化的、类似sql的查询语言。但是,来自Cloudera、Pivotal Software、IBM和其他供应商的商业替代产品不仅提供了更高的性能,而且一直在变得更快。这使得该技术非常适合“迭代分析”,即分析师提出一个问题,得到一个答案,然后再提出另一个问题。传统上,这类工作需要构建一个数据仓库。Hadoop上的SQL不会取代数据仓库,至少短期内不会,Hopkins说,“但它确实为某些类型的分析提供了更昂贵的软件和设备的替代品。”

作为传统的基于SQL的关系数据库的替代品,称为NoSQL(“Not Only SQL”的缩写)数据库,作为用于特定类型的分析应用程序的工具,正迅速受到欢迎,并且这种势头将继续增长,Curran说。他估计,目前有15到20个开源NoSQL数据库,每个数据库都有自己的专长。例如,与关系数据库相比,具有图形数据库功能的NoSQL产品(如ArangoDB)提供了一种更快、更直接的方法来分析客户或销售人员之间的关系网络。

开源SQL数据库“已经存在有一段时间了,但是由于人们需要的分析类型,它们正在加速发展,”Curran说。普华永道(PwC)在一个新兴市场的客户在商店的货架上安装了传感器,以监控货架上有什么产品,顾客使用这些产品的时间有多长,以及顾客在特定货架前站了多长时间。“这些传感器正在喷出的数据流将呈指数级增长,”Curran说。“NoSQL键-值对数据库是这样做的,因为它是专用的、高性能的和轻量级的。”

深度学习是一套基于神经网络的机器学习技术,它仍在发展中,但在解决商业问题方面显示出巨大的潜力,霍普金斯说。“深度学习……使计算机能够识别大量非结构化和二进制数据中感兴趣的项,并在不需要特定模型或编程指令的情况下推导出它们之间的关系,”他说。

在一个例子,深入学习算法,研究了数据从维基百科了解自己,加州和德州这两个州在美国“它没有被建模来理解国家和国家的概念,这是一个很大的区别旧机器学习和新兴深度学习方法,“霍普金斯说。

霍普金斯说:“大数据将利用深度学习等先进的分析技术,处理大量不同的、非结构化的文本,以我们现在才刚刚开始了解的方式提供帮助。”例如,它可以用来识别许多不同类型的数据,比如视频中的形状、颜色和物体,甚至是图像中的猫,就像谷歌在2012年建立的著名的神经网络一样。“这种认知参与、高级分析以及它所暗示的东西的概念……是一个重要的未来趋势,”霍普金斯说。

Beyer说,使用内存数据库来加速分析处理越来越流行,并且在适当的环境中非常有益。事实上,许多企业已经在利用混合事务/分析处理(HTAP)——允许事务和分析处理驻留在同一个内存数据库中。

但是有很多关于HTAP的炒作,企业已经过度使用它了,拜尔说。对于用户需要在一天中多次以相同的方式查看相同数据的系统——数据没有显著变化——在内存中是一种浪费。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: