产品展示
大数据与云计算论文爱游戏平台
大数据与云计算摘要:近年来,大数据和云计算已经成为社会各界关注的热点话题。秉承“按需服务”理念的“云计算(Cludcompu正高速发展,“数据即资源”的“大数据(bigdata)”时代已经来临需要根据大数据特点对传统的常规数据处理技术进行技术变革形成适用于大数据收集、存储、管理、处理、分析、共享和可视化的技术。如何更好地管理和利用大数据已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战数据管理方式上的变革正在酝酿和发生。本文所提到的大数据包含着云计算,因为云计算是支撑大数据的平台。关键词大数据云计算数据分析数据挖掘引言在学术界,大数据这一概念的提出相对较早。20《自然》杂志就推出了名为“大数据”igdata)的专刊。201麦肯锡全球研究院发布了名为《大数据创新、竞争和生产力的下一个前沿》(Bignextfroninnovation,competitity)的研究报告,指出大数据将成为企业的核心资产爱游戏平台,对海量数据的有效利用将成为企业在竞争中取胜的最有力武器联合国发布大数据政务白皮书,指出大数据可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。2012奥巴马政府发布了《大数据研究与发展计划倡议》,宣布启动对大数据的研发计划对未来的科技与经济发展必将带来深远影响。大数据应用正在风靡全球,大数据精准营销成为企业掌舵者的口头禅那么大数据真的是无懈可击吗答案显然是否定的。随着互联网和移动设备的普及,大数据已经在我们的生活中无处不在未来可以获得的个人数据量越多,其中的信息量就越大。只要拥有了足够多的数据我们甚至可能发现有关于一个人的未来信息。另外市场是变化无常并且不可预期的,决策者的创造性思维并不能通过数据得以体现,相反大数据在压制创新。大数据搜集到的数据的真实性也有待检验。一个人获得的数据和事实越多预测就越有意义,人的判断也就显得愈发重要。人类、数据集和算法的协同进化将最终决定“大数据”究竟是会创造新财富还是会摧毁旧价值。本文首先介绍了云计算的相关概念,云计算为大数据的诞生创造了物质基础,从而引出大数据的相关概念。通过大数据与云计算之间关系的比较,使读者对大数据与云计算有一个清晰的了解。文章介绍了大数据特征、作用以及对大数据分析的方法理论对大数据的两种处理模式、处理流程以及关键技术进行了分析提出Mapeduce与关系数据库融合技术,为未来大数据的工作提供了一个参考。云计算简介正如维克托教授所说第一眼只能看到冰山的一角。本章首先对云计算进行相关介绍。1.1云计算的概念由于云计算是由不同的企业和研究机构同步推进的技术所以关于云计算的定义有很多,至今并没有一个公认的定义和标准。结合国际20位专家的定义,Ister定义云计算为一个由规模经济驱动的大型分布式计算模型在该模型中,抽象的、虚拟化的、动态可伸缩的并可管理的计算资源、存储资源、平台和服务构成了一个资源池。资源池中的资源通过互联网按需提供给池外的用户。文献包括硬件资源、部署平台以及相应的服务。根据不同的负载这些资源可以动态地重新配置,以达到一个最理想的资源使用状态。资源池中的资源是按需付费的,服务提供商通过服务等级协议保证用户的服务质量。综合其他资料,可以将云计算归纳为虚拟化技术将共享的硬件和软件资源抽象化成一个统一的资源池通过互联网这个载体,向用户按需地提供所需的资源。其特点在于多用户共享、大数据处理与大数据存储而是并行计算(Pauting,PC)等计算模式的进一步演进。由于云计算的主要标准和方案是由企业推进的,也可以说云计算是分布式计算模型的商业实现。1.2云计算部署及服务模式根据云计算服务对象范围的不同,云计算有四种部署模式(如Error:Referencesourcefound所示):私有云、社区云、公有云和混合云私有云(Privteclud):云计算出现之前对于数据密集型或计算密集型任务,用户需要建立数据中心来提供服务以满足其对数据存储、计算、通信能力的要求。用户需对数据中心进行运维和安全管理,对服务器上的数据和应用具有所有权和控制权。云计算出现后,这种传统的用户建立运维的云计算平台,专供组织内部人员使用,不提供对外服务。私有云能够体现云计算的部分优势例如计算资源的统一管理和动态分配。但是,私有云仍要求组织购买基础设施建立大型数据中心,投入人力物力来维护数据中心的正常运转,由此可见,私有云系统提高了组织的成本,而且使云的规模受到了限制。由于私有云的开放性不高,在几种部署模式中,私有云的安全威胁相对较少。社区云loud):也称为机构云云基础设施由多个组织共同提供,平台由多个组织共同管理。社区云被一些组织共享,为一个有共同关注点(例如,任务、安全需求、策略或政策准则等多个私有云可通过VPN连接到一起组成社区云以满足多个私有云组织之间整合和安全共享的需求。公有云(Publiccloud):公有云的基础设施由一个提供云计算服务的大型运营组织建立和运维,该运营组织一般是拥有大量计算资源的IT巨头,例如Google、微软、Amazon、百度等大型企业。这些IT公司将云计算服务以“按需购买”的方式销售给一般用户或中小企业群体。用户只需将请求提交给云计算系统,付费租用所需的资源和服务。对用户来说,不需要再投入成本建立数据中心,不需要进行系统的维护,可以专心开发核心的应用服务。目前,亚马逊的EC2、GoogleAppEngine、WindowsAzur[9]、百度云等都属于公有云计算系统。由于公有云的开放性较高,而用户又失去了对数据和计算的控制权,因此,与私有云相比,公有云的数据安全威胁更为突出。混合云云基础设施是由两种或两种以上的云(私有云、社区云或公有云具有数据和应用程序的可移植性例如混合云可以在云之间通过负载均衡技术应付突发负载。由于混合云可以是私有云和公有云的组合而将非敏感数据和计算外包到公有云中,这种使用模式下,服务在不同云之间的安全无缝连接较难实现。云计算的几种部署模式计算就要有计算环境云计算提供的三种服务模式就对应了计算环境的三个层面。这三种服务模式分别是基础设施即服structurService)、平台即服务PaaS(PlatfoServi)以及软件即服务SaaS(SoftwareService)。云安全联盟CSA给出了云计算平台的体系结构,涵盖了上述三种服务模式(如Error:eferencesourcefound所示)。云计算平台的体系结构IaaS将计算、存储、通信资源封装为服务提供给云用户,用户相当于使用裸机,能够部署和运行任意软件。IaaS提供计算资源最常用的方式是虚拟机(VirtualMachine,VM),典型服务有Amazon的EC2等。IaaS提供存储资源的服务能够为用户提供海量数据存储和访问服务,这种存储服务也被单独称为DaaS(Da ta Service) 。提供存 储资源的典型服务有Ama zo n的S3,Goo gle的GFS 等。IaaS 可以提供高速网络和 通信服务,这种服务也被称为Ca aS(C ommunicat ion Serv ice),提供网 络和通信资源的典型服务有Op enFlow。 Pa 是在基础设施与应用之间的重要一层,PaaS将基础设施资源进行整合,为用户 提供基于互联网的应用开发环境, 包括应用编程接口和运行平台等, 方便了应用与基础设施 之间的交互。典型的PaaS 平台有Googl e的Ma pRed uce 框架,应用执行环境G AppEngine,微软公司的Mic rosof AzureServices SaaS即云应用软件, 为用户提供直接为其所用的软件。SaaS 一般面向终端用户, 特别是“瘦终端”。终端用户利用web 浏览器, 通过网络就可以获得所需的或定制的云应用服 务。终端用户不具有网络、操作系统、存储等底层云基础设施的控制权, 也不能控制应用的 执行过程,只有非常有限的与应用相关的配置能力。Sa 使用户以最小的开发和管理开销获得定制的应用。典型的SaaS 服务有S alesfo rce 公司的CRM 系统,GoogleD oc 1.3云计算的特点和优势 云计算作为分布式计算的优势: 分布式系统的最大优势就是因为其具有比集中式系统更好的性能价格比,用户花少量的钱就能获得高效能计算。由于“云”的特殊容错措施可以采用极其廉价的节 点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心 管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充 分享受“云”的低成本优势。 多数应用本身就是分布式的。如工业企业应用,管理部门和现场不在同一个地方的应用。 虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无 需了解、也不用担心应用运行的具置。只需要一台笔记本或者一个手机,就 可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。 高可靠性。冗余不仅是生物进化的必要条件,而且也是信息技术。现代分布式系统具有高度容错机制,控制核反应堆主要采用分布式来实现高可靠性。 通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同 一个“云”可以同时支撑不同的应用运行。 可扩展性。添置一台性能更高的大型机,或者添置一台性能相同的大型机的费用都 比添加几台P 高度灵活性。能够兼容不同硬件厂商的产品,兼容低配置机器和外设而获得高性能计算。 云计算在存储领域的发展趋势和优势: 大数据概述云计算的蓬勃发展 客观上开起来大数据时代的大门。大数据是云计算的灵魂和升级方向。云计算为大数据提供的存储的空间和访问的渠道。 各地云计划项目是大数据诞生的前提[9]微软公司全球资深副总裁、亚太研发集团主席张亚勤博士认为“云计算和大数据是一个 硬币的两面, 云计算是大数据的IT 基础, 而大数据是云计算的一个杀手级应用”