大橙子网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
全球最具影响力的大数据企业排行榜
成武网站制作公司哪家好,找创新互联!从网页设计、网站建设、微信开发、APP开发、响应式网站开发等网站项目制作,到程序开发,运营维护。创新互联自2013年创立以来到现在10年的时间,我们拥有了丰富的建站经验和运维经验,来保证我们的工作的顺利进行。专注于网站建设就选创新互联。
目前全球大数据企业主要分为两大阵营。一部分属于单纯以大数据技术为核心的新兴企业,希望为市场带来创新方案并推动技术发展。另有一些原本打理数据库/数据仓储业务的老牌厂商,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。下面我们就一起来看今天的十五家大数据企业名单,其中十家早已名满天下、另外五家则属初来乍到。
1、IBM
根据Wikibon发布的报告,作为2012年大数据业务营收成绩最好的公司,IBM过去一年从大数据相关产品及服务中获得了13亿美元收益。其具体产品包括服务器与存储硬件、数据库软件、分析应用程序以及相关服务等。在IBM围绕大数据开发出的产品中,DB2、Informix与InfoSphere数据库平台、Cognos与SPSS分析应用可谓最为知名。IBM同时也为Hadoop开源数据分析平台提供支持。
2、惠普
惠普在2012年获得的大数据营收名列第二,总值为6.64亿美元。这家供应商还提供与之相关的硬件、软件以及服务,其最为知名的方案当数Vertica分析平台。
3、Teradata
Teradata在2012年获得全球第三大大数据厂商头衔,其营收总额达4.35亿美元。Teradata凭借自家硬件平台、数据库以及分析软件而声名远播。它同时针对零售及运输行业推出了专门的分析工具。
4、甲骨文
尽管在大家眼中,甲骨文一直以其冠绝群雄的数据库产品闻名,但事实上他们也是大数据领域的主要竞逐者之一。其甲骨文大数据设备将英特尔服务器、Cloudera Hadoop发行版以及甲骨文的NoSQL数据库结合到了一起。2012年甲骨文名列大数据企业榜单第五位,营收总额为4.15亿美元。
5、SAP
SAP推出了一系列分析工具,但其中知名度最高的当数其HANA内存内数据库。2012年该公司在大数据企业竞争中位居第六,营收总额为3.68亿美元。
6、EMC
EMC一方面帮助客户保存并分析大数据,另外也充当着大数据分析智囊“营销科学实验室”的所在地——这家实验室专门分析营销类数据。EMC推出的最新爆炸性消息是与VMware及通用电气一道支持Pivotal公司。Pivotal将对Hadoop与EMC的Greenplum数据库与HAWQ查询工具进行整合。EMC在2012年的大数据企业排行榜中位列第七,营收总额为3.36亿美元。
7、Amazon
Amazon向来以企业云平台闻名于世,但同时也推出过一系列大数据产品,其中包括基于Hadoop的Elastic MapReduce、DynamoDB大数据数据库以及能够与Amazon Web Services顺利协作的Redshift规模化并行数据仓储方案。
8、微软
微软的大数据发展战略可谓雄心勃勃,包括与Hortonworks建立合作关系、建立一家大数据新兴企业以及推出基于Hortonworks数据平台的HDInsights工具。微软的SQL Server数据库也颇具知名度,且于2012年的大数据企业比拼之中位列第九,营收总额为1.96亿美元。
9、谷歌
谷歌公司推出的大数据产品包括BigQuery——一款基于云的大数据分析平台。该公司在过去一年中拿下3600万美元大数据营收。
10、VMware
VMware向来以云计算及虚拟化解决方案著称,不过近来也开始逐步踏入大数据领域。今年六月虚拟巨头公布的VMware vSphere大数据扩展版就很说明问题,这套方案使得vSphere能够控制Hadoop部署并帮助企业用户简化大数据项目启动流程。VMware在过去一年中获得3200万美元大数据营收,几乎与谷歌公司持平。
11、业界新生代:Cloudera
相信目前已经没人敢在列举顶级大数据供应商时漏掉Cloudera。这家新兴企业获得1.41亿美元风险投资,支持阵营中甚至包括谷歌、Facebook、甲骨文以及雅虎等在大数据领域赫赫有名的老将。该公司于2008年首次为企业客户带来Apache Hadoop平台。
12、Hortonworks
Hortonworks是另一家Hadoop供应商,并在2011年从雅虎公司分离出来之后获得超过7000万美元的风险投资支持。它在发展中将矛头直指Cloudera,这位年轻选手背后则站着微软、Rackspace、红帽、Teradata等多家战略合作伙伴。
13、Splunk
根据WIkibon的统计,Splunk是目前纯大数据供应商中占据市场份额最大的企业,2012年全年营收总额达1.86亿美元。该公司主要关注机器数据分析业务。
14、10Gen
10Gen最具影响力的得意佳作要数其开源MongoDB——一款业界领先的NoSQL数据库。该公司的战略投资伙伴包括英特尔、红帽以及In-Q-Tel。10Gen去年在纯Hadoop及NoSQL业务企业中名列第三,营收总额为3600万美元。
15、MapR
大家想必听说过MapR推出的NoSQL数据库M7,这家公司与Amazon的云平台及谷歌计算引擎达成了协作关系。去年MapR在纯Hadoop与NoSQL业务企业中位列第四,营收总额为2300万美元。
以上是小编为大家分享的关于全球最具影响力的大数据企业排行榜的相关内容,更多信息可以关注环球青藤分享更多干货
什么是NoSQL数据库?从名称“非SQL”或“非关系型”衍生而来,这些数据库不使用类似SQL的查询语言,通常称为结构化存储。这些数据库自1960年就已经存在,但是直到现在一些大公司(例如Google和Facebook)开始使用它们时,这些数据库才流行起来。该数据库最明显的优势是摆脱了一组固定的列、连接和类似SQL的查询语言的限制。有时,NoSQL这个名称也可能表示“不仅仅SQL”,来确保它们可能支持SQL。 NoSQL数据库使用诸如键值、宽列、图形或文档之类的数据结构,并且可以如JSON之类的不同格式存储。
在大数据时代,“多种架构支持多类应用”成为数据库行业应对大数据的基本思路,数据库行业出现互为补充的三大阵营,适用于事务处理应用的OldSQL、适用于数据分析应用的NewSQL和适用于互联网应用的NoSQL。但在一些复杂的应用场景中,单一数据库架构都不能完全满足应用场景对海量结构化和非结构化数据的存储管理、复杂分析、关联查询、实时性处理和控制建设成本等多方面的需要,因此不同架构数据库混合部署应用成为满足复杂应用的必然选择。不同架构数据库混合使用的模式可以概括为:OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三种主要模式。下面通过三个案例对不同架构数据库的混合应用部署进行介绍。
OldSQL+NewSQL 在数据中心类应用中混合部署
采用OldSQL+NewSQL模式构建数据中心,在充分发挥OldSQL数据库的事务处理能力的同时,借助NewSQL在实时性、复杂分析、即席查询等方面的独特优势,以及面对海量数据时较强的扩展能力,满足数据中心对当前“热”数据事务型处理和海量历史“冷”数据分析两方面的需求。OldSQL+NewSQL模式在数据中心类应用中的互补作用体现在,OldSQL弥补了NewSQL不适合事务处理的不足,NewSQL弥补了OldSQL在海量数据存储能力和处理性能方面的缺陷。
商业银行数据中心采用OldSQL+NewSQL混合部署方式搭建,OldSQL数据库满足各业务系统数据的归档备份和事务型应用,NewSQL MPP数据库集群对即席查询、多维分析等应用提供高性能支持,并且通过MPP集群架构实现应对海量数据存储的扩展能力。
商业银行数据中心存储架构
与传统的OldSQL模式相比,商业银行数据中心采用OldSQL+NewSQL混合搭建模式,数据加载性能提升3倍以上,即席查询和统计分析性能提升6倍以上。NewSQL MPP的高可扩展性能够应对新的业务需求,可随着数据量的增长采用集群方式构建存储容量更大的数据中心。
OldSQL+NoSQL 在互联网大数据应用中混合部署
在互联网大数据应用中采用OldSQL+NoSQL混合模式,能够很好的解决互联网大数据应用对海量结构化和非结构化数据进行存储和快速处理的需求。在诸如大型电子商务平台、大型SNS平台等互联网大数据应用场景中,OldSQL在应用中负责高价值密度结构化数据的存储和事务型处理,NoSQL在应用中负责存储和处理海量非结构化的数据和低价值密度结构化数据。OldSQL+NoSQL模式在互联网大数据应用中的互补作用体现在,OldSQL弥补了NoSQL在ACID特性和复杂关联运算方面的不足,NoSQL弥补了OldSQL在海量数据存储和非结构化数据处理方面的缺陷。
数据魔方是淘宝网的一款数据产品,主要提供行业数据分析、店铺数据分析。淘宝数据产品在存储层采用OldSQL+NoSQL混合模式,由基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom组成。由于OldSQL强大的语义和关系表达能力,在应用中仍然占据着重要地位,目前存储在MyFOX中的统计结果数据已经达到10TB,占据着数据魔方总数据量的95%以上。另一方面,NoSQL作为SQL的有益补充,解决了OldSQL数据库无法解决的全属性选择器等问题。
淘宝海量数据产品技术架构
基于OldSQL+NoSQL混合架构的特点,数据魔方目前已经能够提供压缩前80TB的数据存储空间,支持每天4000万的查询请求,平均响应时间在28毫秒,足以满足未来一段时间内的业务增长需求。
NewSQL+NoSQL 在行业大数据应用中混合部署
行业大数据与互联网大数据的区别在于行业大数据的价值密度更高,并且对结构化数据的实时处理、复杂的多表关联分析、即席查询、数据强一致性等都比互联网大数据有更高的要求。行业大数据应用场景主要是分析类应用,如:电信、金融、政务、能源等行业的决策辅助、预测预警、统计分析、经营分析等。
在行业大数据应用中采用NewSQL+NoSQL混合模式,充分利用NewSQL在结构化数据分析处理方面的优势,以及NoSQL在非结构数据处理方面的优势,实现NewSQL与NoSQL的功能互补,解决行业大数据应用对高价值结构化数据的实时处理、复杂的多表关联分析、即席查询、数据强一致性等要求,以及对海量非结构化数据存储和精确查询的要求。在应用中,NewSQL承担高价值密度结构化数据的存储和分析处理工作,NoSQL承担存储和处理海量非结构化数据和不需要关联分析、Ad-hoc查询较少的低价值密度结构化数据的工作。
当前电信运营商在集中化BI系统建设过程中面临着数据规模大、数据处理类型多等问题,并且需要应对大量的固定应用,以及占统计总数80%以上的突发性临时统计(ad-hoc)需求。在集中化BI系统的建设中采用NewSQL+NoSQL混搭的模式,充分利用NewSQL在复杂分析、即席查询等方面处理性能的优势,及NoSQL在非结构化数据处理和海量数据存储方面的优势,实现高效低成本。
集中化BI系统数据存储架构
集中化BI系统按照数据类型和处理方式的不同,将结构化数据和非结构化数据分别存储在不同的系统中:非结构化数据在Hadoop平台上存储与处理;结构化、不需要关联分析、Ad-hoc查询较少的数据保存在NoSQL数据库或Hadoop平台;结构化、需要关联分析或经常ad-hoc查询的数据,保存在NewSQL MPP数据库中,短期高价值数据放在高性能平台,中长期放在低成本产品中。
结语
当前信息化应用的多样性、复杂性,以及三种数据库架构各自所具有的优势和局限性,造成任何一种架构的数据库都不能完全满足应用需求,因此不同架构数据库混合使用,从而弥补其他架构的不足成为必然选择。根据应用场景采用不同架构数据库进行组合搭配,充分发挥每种架构数据库的特点和优势,并且与其他架构数据库形成互补,完全涵盖应用需求,保证数据资源的最优化利用,将成为未来一段时期内信息化应用主要采用的解决方式。
目前在国内市场上,OldSQL主要为Oracle、IBM等国外数据库厂商所垄断,达梦、金仓等国产厂商仍处于追赶状态;南大通用凭借国产新型数据库GBase 8a异军突起,与EMC的Greenplum和HP的Vertica跻身NewSQL市场三强;NoSQL方面用户则大多采用Hadoop开源方案。
架构图如下图所示。这张图基本涵盖了互联网技术公司的大部分技术点,不同公司只是在具体的技术实现上稍有差异,但不会跳出这个框架的范畴。
SQL: 常用的有mysql,用于存储业务数据。互联网发展初期,各个业务一般都会独立运营mysql集群,但随着业务越来越多,mysql集群规模越来越大,那就有必要做成SQL平台。
NoSQL: 翻译为Not Only SQL,作为mysql的一种补充。Nosql一般本身就提供集群,且使用起来很方便,公司业务发展初期没有必要。一般Nosql集群的数量越来越多,那就有必要做成Nosql平台。
小文件: 互联网中有很多小文件,比如商品图片,Facebook的图片。这类小文件具有数据小、数量巨大、访问大的特点。如果每个业务都去考虑小文件存储的话,就会出现重复造轮子现象,那就有必要做成小文件平台了。
大文件: 互联网的大文件主要分为两类:一类是业务上的大数据,例如Youtube的视频、电影网站的电影;另一类是海量的日志数据,例如各种访问日志。实力雄厚的一些大公司会基于开源方案做成大数据平台。
开发框架: 比如常见的Spring框架。
Web服务器: 常见的有tomcat、jetty等。
容器: Docker可以极大降低运维成本,以及在实现动态扩容上非常方便。
配置中心: 故名思义,配置中心就是集中管理各个系统的配置。
服务中心: 解决跨系统依赖的配置和调度问题。比如有10个系统依赖A系统的x接口,此时A系统实现了一个y接口可以更好地支持x接口,那么如果直接更新10个系统依赖的配置将会很麻烦。
消息队列: 支持系统解耦。
负载均衡: 充当任务分配器的职责。
CDN: 可以对一些常用文件进行就近缓存,来提高访问速度。
多机房: 多机房的主要目的是备灾,当机房故障时可以快速地将业务切换到另外一个机房,这种切换操作允许一定时间的中断,比如10分钟,1个小时。
多中心: 多中心的要求就更高了,要求同时对外提供服务,且业务能够自动在多中心之间切换,故障后不需人工干预或者很少的人工干预就能自动恢复。
用户管理: 对各个系统的用户进行统一管理。
消息推送: 根据不同途径分为短信、邮件、站内信、App推送。
存储云: 实现是CDN+小文件存储。
图片云: 实现也是CDN+小文件存储。为何不与存储云统一一套系统呢?这是因为图片业务的复杂性导致的。图片涉及的业务会更多,包括裁剪、压缩、美化、审核、水印等。
业务千差万别,各个互联网业务面对的主要问题是复杂度越来越高。此时就要用到拆和合的技术。拆即将一个大系统拆分为多个子系统,降低复杂度。当子系统越来越多,有可能就需要采用合的技术。
测试平台的核心目的是提升测试效率。
运维平台的核心职责分为四大块:配置、部署、监控、应急。
数据平台的核心职责主要包含三部分:数据管理、数据分析和数据应用。
管理平台的核心职责就是权限管理。