首页 >> 中药方剂

互联网发展推动大数据浪潮

中药方剂  2020年06月22日  浏览:6 次

很多公司发现,他们手中掌握着大量的数据,而这些数据可帮助实现利润的最大化,并提高效率。在许多方面,谷歌、亚马逊、雅虎、Facebook和推特等服务巨头处于如何充分利用这些庞大数据集的最前沿。谷歌和雅虎等公司大力支持发展cebook的工程师们则大力发展同样是开源的Apache Cassandra分布式数据库。

2004年的谷歌白皮书为Hadoop的发展拉开了帷幕。这份白皮书详细地阐述了谷歌将通过一个名为BigTable的索引系统,创建能够在众多不同服务器中分析数据的基础设施。谷歌一直在内部使用BigTable,但是曾经创建过Lucene/Solr开源搜索引擎的开发者Doug Cutting为其创建了一个开源版本,并以儿子的玩具象命名了该项技术。

雅虎是Hadoop技术的早期部署者。该公司在2006年雇用了Cutting并开始将大量的工程工作,以改良这种技术。目前已跳槽为Hadoop软件和服务提供商Cloudera工作的Cutting说:雅虎有着大量以不同形式相互关联的重要数据,但是它们存在于相互独立的系统之中。

雅虎目前是Hadoop最大的用户之一,其在40000多台服务器中部署了该技术。同时雅虎正在以多种方式使用该技术。Hadoop的集群掌握了大量事件的日志文件和用户点击区域的日志文件8、招聘人才报,广告活动也被存储在Hadoop集群中。Monash说:在将数据存入关系型数据库前,Hadoop是一个组织和压缩海量数据的重要工具。该技术非常适合跨大量文本集的搜索。

另一款被互联服务商使用的大数据技术是Cassandra数据库。Cassandra在单一行上能够存储200万个列,这便于在现有用户账户上附加更多的数据,而无需提前获知数据被格式化的方式。使用Cassandra数据库的另一个好处在于,它能够在多个服务器中扩展,帮助企业更为容易地在单一服务器或小型服务器集群中扩展其数据库。

Apache Cassandra项目主席、DataStax公司联合创始人Jonathan Ellis称,Cassandra由社交络巨头Facebook开发,因为该公司需要一个大型分布式数据库,以支持收件箱内搜索。

雅虎、Facebook等公司希望使用谷歌的BigTable架构,因为它能够提供一个定向于行与列的数据库结构,并且能够在大量节点中扩展。BigTable的局限性在于其为定向于主节点的设计。整体运作依赖于单一节点协调其他所有节点中的读写活动。换句话说实现环保工艺的升级换代,如果主要节点故障,那么整个系统将瘫痪。 Ellis说:这不是一个最佳设计。我们希望一台机器故障后,其他的机器依然能够正常运行。

因此,Ellis和他的同行使用由亚马逊开发的分布式架构Dynamo创建了Cassandra.关于Dynamo,亚马逊工程师曾经在2007年的报告中进行了详细的阐述。亚马逊最初开发Dynamo是为了追踪用户将哪些东西放在了他们的络购物车中。Dynamo的设计并不依赖于任何一个主节点。任何节点都能够为整个系统接收数据和查询。数据将在多个主机中被复制。

青少年便秘是如何形成
遵义治疗白癜风好的医院
小便刺痛快速治疗方法
友情链接