bigtable论文发表在何处

发布时间：2024-07-04 04:59:53

bigtable论文发表在何处

等会让他赶紧染发剂对人体

发表论文通常只有两种渠道，要么自己投，要么找论文发表机构代投，不管走哪种渠道，最后都是要发表到期刊上的。

期刊，也叫杂志，在上个世纪在出版界曾经是重量级的存在，那个时候互联网还没有兴起，人们阅读文章获取资讯远远没有现在方便，杂志就成为一个很重要的传播媒介。

但现在随着社会的进步，科技的发展，纸媒已经大大没落了，很多期刊被砍掉了，剩下来的大多数不得不自谋出路，学术期刊更是如此，因为这个受众面是很窄的，基本没法盈利，所以只能靠收取版面费来维持，当然，有国家财政拨款的那种不在这个范围。

我们现在发表学术论文，出于严谨性权威性等原因的考虑，还是要发表到纸质期刊上，编辑会用电子邮箱或者内部的系统来收稿，但不会有一个网络平台有发表论文的资质，即使是知网和万方这样的网站，也只是论文数据库，并不是论文发表平台。

所以发表论文的时候，还是要先去选取目标期刊，然后再找到这本期刊的投稿邮箱，或者是找到靠谱的论文发表机构，由代理进行代投，最后都是发表到纸质期刊上的，见刊后一两个月左右被知网收录，就可以检索到了。

bigtable论文在哪发表的

正常情况下的话，它的原型应该是嗯iOS的这一款手机当中的和steam游戏当中的相对来说可能会比较多一点，而且比较正确一点。

来着俚的 mgt66，co m

HBase是一个分布式的、面向列的开源

数据库，该技术来源于 Fay Chang 所撰写的G

oogle论文“Bigtable：一个结构化数据

的分布式存储系统”。就像Bigtable利用了Goo

gle文件系统（File System）所提供的分布

式数据存储一样，HBase在Hadoop之上提供了

类似于Bigtable的能力。

Apache HBase? is the Hadoop database, a distributed, scalable, big data store. --来自Apache HBase官网 HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 --来自百度百科

它的原型是一种模式吧，然后的话稳定下来就会形成一种新的类型和新的类别。

bigtable论文发表地点

就是提供云计算的网站1、狭义云计算狭义云计算是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的资源（硬件、平台、软件）。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。这种特性经常被称为像水电一样使用IT基础设施。 2、广义云计算广义云计算是指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的，也可以是任意其他的服务。解释：这种资源池称为“云”。“云”是一些可以自我维护和管理的虚拟计算资源，通常为一些大型服务器集群，包括计算服务器、存储服务器、宽带资源等等。云计算将所有的计算资源集中起来，并由软件实现自动管理，无需人为参与。这使得应用提供者无需为繁琐的细节而烦恼，能够更加专注于自己的业务，有利于创新和降低成本。有人打了个比方：这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通，就像煤气、水电一样，取用方便，费用低廉。最大的不同在于，它是通过互联网进行传输的。云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展，或者说是这些计算机科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。总的来于，云计算可以算作是网格计算的一个商业演化版。早在2002年，我国刘鹏就针对传统网格计算思路存在不实用问题，提出计算池[4][5]的概念：“把分散在各地的高性能计算机用高速网络连接起来，用专门设计的中间件软件有机地粘合在一起，以Web界面接受各地科学工作者提出的计算请求，并将之分配到合适的结点上运行。计算池能大大提高资源的服务质量和利用率，同时避免跨结点划分应用程序所带来的低效性和复杂性，能够在目前条件下达到实用化要求。”如果将文中的“高性能计算机”换成“服务器集群”，将“科学工作者”换成“商业用户”，就与当前的云计算非常接近了。云计算具有以下特点： (1) 超大规模。“云”具有相当的规模，Google云计算已经拥有100多万台服务器，Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。 (2) 虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”，而不是固定的有形的实体。应用在“云”中某处运行，但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机，就可以通过网络服务来实现我们需要的一切，甚至包括超级计算这样的任务。 (3) 高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性，使用云计算比使用本地计算机可靠。 (4) 通用性。云计算不针对特定的应用，在“云”的支撑下可以构造出千变万化的应用，同一个“云”可以同时支撑不同的应用运行。 (5) 高可扩展性。“云”的规模可以动态伸缩，满足应用和用户规模增长的需要。 (6) 按需服务。“云”是一个庞大的资源池，你按需购买；云可以象自来水，电，煤气那样计费。 (7) 极其廉价。由于“云”的特殊容错措施可以采用极其廉价的节点来构成云，“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本，“云”的通用性使资源的利用率较之传统系统大幅提升，因此用户可以充分享受“云”的低成本优势，经常只要花费几百[url=/view/25549.htm]美元[/url]、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。云计算可以彻底改变人们未来的生活，但同时也用重视环境问题，这样才能真正为人类进步做贡献,而不是简单的技术提升。“云计算”时代当今社会，PC依然是我们日常工作生活中的核心工具——我们用PC处理文档、存储资料，通过电子邮件或U盘与他人分享信息。如果PC硬盘坏了，我们会因为资料丢失而束手无策。而在“云计算”时代，“云”会替我们做存储和计算的工作。“云”就是计算机群，每一群包括了几十万台、甚至上百万台计算机。“云”的好处还在于，其中的计算机可以随时更新，保证“云”长生不老。Google就有好几个这样的“云”，其他IT巨头，如微软、雅虎、亚马逊（Amazon）也有或正在建设这样的“云”。届时，我们只需要一台能上网的电脑，不需关心存储或计算发生在哪朵“云”上，但一旦有需要，我们可以在任何地点用任何设备，如电脑、手机等，快速地计算和找到这些资料。我们再也不用担心资料丢失。在谷雪梅加入Google以后，她发现这一类概念已经得到了实践。Google的技术，可以让几十万台计算机一起发挥作用，组成强大的数据中心。Google中国CEO李开复此前接受《财经》记者专访时说，Google真正的竞争力就在于有这些“云”，他们让Google有了无与伦比的存储和计算全球数据的能力。Google在创立之初，并没有刻意地去追求“云计算”和“晶格计算”等概念。但作为一家搜索引擎，Google在客观上需要拥有这些“云”。实际上，雅虎的搜索同样用到了“云计算”。云计算是一种新兴的共享基础架构的方法，它可以将巨大的系统池连接在一起以提供各种IT服务。很多因素推动了对这类环境的需求，其中包括连接设备、实时数据流、 SOA 的采用以及搜索、开放协作、社会网络和移动商务等这样的 Web 2.0 应用的急剧增长。另外，数字元器件性能的提升也使IT环境的规模大幅度提高，从而进一步加强了对一个由统一的云进行管理的需求。云计算+always-On设备被评为“25年来最具影响力的十大IT技术组合” 《纽约时报》:云计算到底指什么？云计算的说法正在广为流行，Gartner高级分析师Ben Pring评价道：“它正在成为一个大众化的词语。”但是，问题是似乎每个人对于云计算的理解各不相同。作为一个对互联网的比喻，“云”是很容易理解的。但是一旦同“计算”联系起来，它的意义就扩展了，而且开始变得模糊起来。有些分析师和公司把云计算仅仅定义为计算的升级版——基本上就是互联网上提供的众多虚拟服务器。另外一些人把云计算定义的更加宽泛，他们认为用户在防火墙保护之外消费的任何事物都处于“云”之中。云计算被人们关注是在人们考虑IT业到底需要什么之后，人们需要找到一种办法能够在不增加新的投资，新的人力和新的软件的情况下增加互联网的能力和容量。而云计算正好提供了这种可能。现今云计算正处于一个起步的阶段，大大小小的公司提供着各式各样的云计算服务，从软件应用到网络存储再到邮件过滤。这些公司一部分是基础设备提供商，另一部分是像Salesforce.com之类的SAAS（软件即服务）提供商。现今主要实现的是基于互联网的个人服务，但是云计算的聚合和整合正在产生。云计算的几大形式 InfoWorld网站同数十家公司、分析家和IT用户讨论出了云计算的几大形式： 1.SAAS（软件即服务）这种类型的云计算通过浏览器把程序传给成千上万的用户。在用户眼中看来，这样会省去在服务器和软件授权上的开支；从供应商角度来看，这样只需要维持一个程序就够了，这样能够减少成本。Salesforce.com是迄今为止这类服务最为出名的公司。SAAS在人力资源管理程序和ERP中比较常用。 Google Apps和Zoho Office也是类似的服务 2.实用计算（Utility Computing）这个主意很早就有了，但是直到最近才在Amazon.com、Sun、IBM和其它提供存储服务和虚拟服务器的公司中新生。这种云计算是为IT行业创造虚拟的数据中心使得其能够把内存、I/O设备、存储和计算能力集中起来成为一个虚拟的资源池来为整个网络提供服务。 3.网络服务同SAAS关系密切，网络服务提供者们能够提供API让开发者能够开发更多基于互联网的应用，而不是提供单机程序。 4.平台即服务另一种SAAS，这种形式的云计算把开发环境作为一种服务来提供。你可以使用中间商的设备来开发自己的程序并通过互联网和其服务器传到用户手中。 5.MSP（管理服务提供商）最古老的云计算运用之一。这种应用更多的是面向IT行业而不是终端用户，常用于邮件病毒扫描、程序监控等等。 6.商业服务平台 SAAS和MSP的混合应用，该类云计算为用户和提供商之间的互动提供了一个平台。比如用户个人开支管理系统，能够根据用户的设置来管理其开支并协调其订购的各种服务。 7.互联网整合将互联网上提供类似服务的公司整合起来，以便用户能够更方便的比较和选择自己的服务供应商。云计算四个显著特点首先，云计算提供了最可靠、最安全的数据存储中心，用户不用再担心数据丢失、病毒入侵等麻烦。很多人觉得数据只有保存在自己看得见、摸得着的电脑里才最安全，其实不然。你的电脑可能会因为自己不小心而被损坏，或者被病毒攻击，导致硬盘上的数据无法恢复，而有机会接触你的电脑的不法之徒则可能利用各种机会窃取你的数据。此前轰动一时的“艳照门”事件据报道不也是因为电脑送修而造成个人数据外泄的吗？反之，当你的文档保存在类似 Google Docs 的网络服务上，当你把自己的照片上传到类似 Google Picasa Web 的网络相册里，你就再也不用担心数据的丢失或损坏。因为在“云”的另一端，有全世界最专业的团队来帮你管理信息，有全世界最先进的数据中心来帮你保存数据。同时，严格的权限管理策略可以帮助你放心地与你指定的人共享数据。这样，你不用花钱就可以享受到最好、最安全的服务，甚至比在银行里存钱还方便。其次，云计算对用户端的设备要求最低，使用起来也最方便。大家都有过维护个人电脑上种类繁多的应用软件的经历。为了使用某个最新的操作系统，或使用某个软件的最新版本，我们必须不断升级自己的电脑硬件。为了打开朋友发来的某种格式的文档，我们不得不疯狂寻找并下载某个应用软件。为了防止在下载时引入病毒，我们不得不反复安装杀毒和防火墙软件。所有这些麻烦事加在一起，对于一个刚刚接触计算机，刚刚接触网络的新手来说不啻一场噩梦！如果你再也无法忍受这样的电脑使用体验，云计算也许是你的最好选择。你只要有一台可以上网的电脑，有一个你喜欢的浏览器，你要做的就是在浏览器中键入 URL ，然后尽情享受云计算带给你的无限乐趣。你可以在浏览器中直接编辑存储在“云”的另一端的文档，你可以随时与朋友分享信息，再也不用担心你的软件是否是最新版本，再也不用为软件或文档染上病毒而发愁。因为在“云”的另一端，有专业的 IT 人员帮你维护硬件，帮你安装和升级软件，帮你防范病毒和各类网络攻击，帮你做你以前在个人电脑上所做的一切。此外，云计算可以轻松实现不同设备间的数据与应用共享。大家不妨回想一下，你自己的联系人信息是如何保存的。一个最常见的情形是，你的手机里存储了几百个联系人的电话号码，你的个人电脑或笔记本电脑里则存储了几百个电子邮件地址。为了方便在出差时发邮件，你不得不在个人电脑和笔记本电脑之间定期同步联系人信息。买了新的手机后，你不得不在旧手机和新手机之间同步电话号码。对了，还有你的 PDA 以及你办公室里的电脑。考虑到不同设备的数据同步方法种类繁多，操作复杂，要在这许多不同的设备之间保存和维护最新的一份联系人信息，你必须为此付出难以计数的时间和精力。这时，你需要用云计算来让一切都变得更简单。在云计算的网络应用模式中，数据只有一份，保存在“云”的另一端，你的所有电子设备只需要连接互联网，就可以同时访问和使用同一份数据。仍然以联系人信息的管理为例，当你使用网络服务来管理所有联系人的信息后，你可以在任何地方用任何一台电脑找到某个朋友的电子邮件地址，可以在任何一部手机上直接拨通朋友的电话号码，也可以把某个联系人的电子名片快速分享给好几个朋友。当然，这一切都是在严格的安全管理机制下进行的，只有对数据拥有访问权限的人，才可以使用或与他人分享这份数据。最后，云计算为我们使用网络提供了几乎无限多的可能为存储和管理数据提供了几乎无限多的空间，也为我们完成各类应用提供了几乎无限强大的计算能力。想像一下，当你驾车出游的时候，只要用手机连入网络，就可以直接看到自己所在地区的卫星地图和实时的交通状况，可以快速查询自己预设的行车路线，可以请网络上的好友推荐附近最好的景区和餐馆，可以快速预订目的地的宾馆，还可以把自己刚刚拍摄的照片或视频剪辑分享给远方的亲友…… 离开了云计算，单单使用个人电脑或手机上的客户端应用，我们是无法享受这些便捷的。个人电脑或其他电子设备不可能提供无限量的存储空间和计算能力，但在“云”的另一端，由数千台、数万台甚至更多服务器组成的庞大的集群却可以轻易地做到这一点。个人和单个设备的能力是有限的，但云计算的潜力却几乎是无限的。当你把最常用的数据和最重要的功能都放在“云”上时，我们相信，你对电脑、应用软件乃至网络的认识会有翻天覆地的变化，你的生活也会因此而改变。互联网的精神实质是自由、平等和分享。作为一种最能体现互联网精神的计算模型，云计算必将在不远的将来展示出强大的生命力，并将从多个方面改变我们的工作和生活。无论是普通网络用户，还是企业员工，无论是IT管理者，还是软件开发人员，他们都能亲身体验到这种改变。云计算的发展现状云计算是个热度很高的新名词。由于它是多种技术混合演进的结果，其成熟度较高，又有大公司推动，发展极为迅速。Amazon、Google、IBM、微软和Yahoo等大公司是云计算的先行者。云计算领域的众多成功公司还包括Salesforce、Facebook、Youtube、Myspace等。 Amazon使用弹性计算云（EC2）和简单存储服务（S3）为企业提供计算和存储服务。收费的服务项目包括存储服务器、带宽、CPU资源以及月租费。月租费与电话月租费类似，存储服务器、带宽按容量收费，CPU根据时长(小时)运算量收费。Amazon把云计算做成一个大生意没有花太长的时间：不到两年时间，Amazon上的注册开发人员达44万人，还有为数众多的企业级用户。有第三方统计机构提供的数据显示，Amazon与云计算相关的业务收入已达1亿美元。云计算是Amazon增长最快的业务之一。 Google当数最大的云计算的使用者。Google搜索引擎就建立在分布在200多个地点、超过100万台服务器的支撑之上，这些设施的数量正在迅猛增长。Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。采用Google Docs之类的应用，用户数据会保存在互联网上的某个位置，可以通过任何一个与互联网相连的系统十分便利地访问这些数据。目前，Google已经允许第三方在Google的云计算中通过Google App Engine运行大型并行应用程序。Google值得称颂的是它不保守。它早已以发表学术论文的形式公开其云计算三大法宝：GFS、MapReduce和BigTable，并在美国、中国等高校开设如何进行云计算编程的课程。 IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台，为客户带来即买即用的云计算平台。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件，使来自全球的应用可以访问分布式的大型服务器池。使得数据中心在类似于互联网的环境下运行计算。IBM正在与17个欧洲组织合作开展云计算项目。欧盟提供了1.7亿欧元做为部分资金。该计划名为RESERVOIR，以“无障碍的资源和服务虚拟化”为口号。2008年8月， IBM宣布将投资约4亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造。IBM计划在2009年在10个国家投资3亿美元建13个云计算中心。微软紧跟云计算步伐，于2008年10月推出了WindowsAzure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后，微软的又一次颠覆性转型——通过在互联网架构上打造新云计算平台，让Windows真正由PC延伸到“蓝天”上。微软拥有全世界数以亿计的Windows用户桌面和浏览器，现在它将它们连接到“蓝天”上。Azure的底层是微软全球基础服务系统，由遍布全球的第四代数据中心构成。云计算的新颖之处在于它几乎可以提供无限的廉价存储和计算能力。纽约一家名为Animoto的创业企业已证明云计算的强大能力（此案例引自和讯网维维编译《纽约时报》2008年5月25日[url=/view/408955.htm]报道[/url]）。Animoto允许用户上传图片和音乐，自动生成基于网络的视频演讲稿，并且能够与好友分享。该网站目前向注册用户提供免费服务。2008年年初，网站每天用户数约为5000人。4月中旬，由于Facebook用户开始使用Animoto服务，该网站在三天内的用户数大幅上升至75万人。Animoto联合创始人Stevie Clifton表示，为了满足用户需求的上升，该公司需要将服务器能力提高100倍，但是该网站既没有资金，也没有能力建立规模如此巨大的计算能力。因此，该网站与云计算服务公司RightScale合作，设计能够在亚马逊的网云中使用的应用程序。通过这一举措，该网站大大提高了计算能力，而费用只有每服务器每小时10美分。这样的方式也加强创业企业的灵活性。当需求下降时，Animoto只需减少所使用的服务器数量就可以降低服务器支出。在我国，云计算发展也非常迅猛。2008年5月10日，IBM在中国无锡太湖新城科教产业园建立的中国第一个云计算中心投入运营(trouble project?)。2008年6月24日，IBM在北京IBM中国创新中心成立了第二家中国的云计算中心——IBM大中华区云计算中心；2008年11月28日，广东电子工业研究院与东莞松山湖科技产业园管委会签约，广东电子工业研究院将在东莞松山湖投资2亿元建立云计算平台；2008年12月30日，阿里巴巴集团旗下子公司阿里软件与江苏省南京市政府正式签订了2009年战略合作框架协议，计划于2009年初在南京建立国内首个“电子商务云计算中心”，首期投资额将达上亿元人民币；世纪互联推出了CloudEx产品线，包括完整的互联网主机服务"CloudEx Computing Service", 基于在线存储虚拟化的"CloudEx Storage Service"，供个人及企业进行互联网云端备份的数据保全服务等等系列互联网云计算服务；中国移动研究院做云计算的探索起步较早，已经完成了云计算中心试验。中移动董事长兼CEO王建宙认为云计算和互联网的移动化是未来发展方向。我国企业创造的“云安全”概念，在国际云计算领域独树一帜。云安全通过网状的大量客户端对网络中软件行为的异常监测，获取互联网中木马、恶意程序的最新信息，推送到服务端进行自动分析和处理，再把病毒和木马的解决方案分发到每一个客户端。云安全的策略构想是：使用者越多，每个使用者就越安全，因为如此庞大的用户群，足以覆盖互联网的每个角落，只要某个网站被挂马或某个新木马病毒出现，就会立刻被截获。云安全的发展像一阵风，瑞星、趋势、卡巴斯基、MCAFEE、SYMANTEC、江民科技、PANDA、金山、360安全卫士、卡卡上网安全助手等都推出了云安全解决方案。瑞星基于云安全策略开发的2009新品，每天拦截数百万次木马攻击，其中1月8日更是达到了765万余次。势科技云安全已经在全球建立了5大数据中心，几万部在线服务器。据悉，云安全可以支持平均每天55亿条点击查询，每天收集分析2.5亿个样本，资料库第一次命中率就可以达到99%。借助云安全，趋势科技现在每天阻断的病毒感染最高达1000万次。值得一提的是，云安全的核心思想，与刘鹏早在2003年就提出的反垃圾邮件[url=/view/10755.htm]网格[/url]非常接近[1][2]。刘鹏当时认为，垃圾邮件泛滥而无法用技术手段很好地自动过滤，是因为所依赖的人工智能方法不是成熟技术。垃圾邮件的最大的特征是：它会将相同的内容发送给数以百万计的接收者。为此，可以建立一个分布式统计和学习平台，以大规模用户的协同计算来过滤垃圾邮件：首先，用户安装客户端，为收到的每一封邮件计算出一个唯一的“指纹”，通过比对“指纹”可以统计相似邮件的副本数，当副本数达到一定数量，就可以判定邮件是垃圾邮件；其次，由于互联网上多台计算机比一台计算机掌握的信息更多，因而可以采用分布式贝叶斯学习算法，在成百上千的客户端机器上实现协同学习过程，收集、分析并共享最新的信息。反垃圾邮件网格体现了真正的网格思想，每个加入系统的用户既是服务的对象，也是完成分布式统计功能的一个信息节点，随着系统规模的不断扩大，系统过滤垃圾邮件的准确性也会随之提高。用大规模统计方法来过滤垃圾邮件的做法比用人工智能的方法更成熟，不容易出现误判假阳性的情况，实用性很强。反垃圾邮件网格就是利用分布互联网里的千百万台主机的协同工作，来构建一道拦截垃圾邮件的“天网”。反垃圾邮件网格思想提出后，被IEEE Cluster 2003国际会议选为杰出网格项目在香港作了现场演示，在2004年网格计算国际研讨会上作了专题报告和现场演示，引起较为广泛的关注，受到了中国最大邮件服务提供商网易公司创办人丁磊等的重视。既然垃圾邮件可以如此处理，病毒、木马等亦然，这与云安全的思想就相去不远了。 2008年11月25日，中国电子学会专门成立了云计算专家委员会，聘任中国工程院院士[url=/view/1245508.htm]李德毅[/url]为主任委员，聘任IBM大中华区首席技术总裁叶天正、中国电子科技集团公司第十五研究所所长刘爱民、中国工程院院士张尧学、Google全球副总裁/中国区总裁李开复、中国工程院院士倪光南、中国移动通信研究院院长黄晓庆六位专家为副主任委员，聘任国内外30多位知名专家学者为专家委员会委员。2009年5月22日，中国电子学会将于在北京中国大饭店隆重举办首届中国云计算大会。

等会让他赶紧染发剂对人体

专业的云计算门户爱耘网深圳服务器深圳云计算

bigtable论文发表时间

大数据技术发展史：大数据的前世今生

今天我们常说的大数据技术，其实起源于Google在2004年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。

你知道，搜索引擎主要就做两件事情，一个是网页抓取，一个是索引构建，而在这个过程中，有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的，你从介绍中也能看出来，一个文件系统、一个计算框架、一个数据库系统。

现在你听到分布式、大数据之类的词，肯定一点儿也不陌生。但你要知道，在2004年那会儿，整个互联网还处于懵懂时代，Google发布的论文实在是让业界为之一振，大家恍然大悟，原来还可以这么玩。

因为那个时间段，大多数公司的关注点其实还是聚焦在单机上，在思考如何提升单机的性能，寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群，通过分布式的方式将海量数据存储在这个集群上，然后利用集群上的所有机器进行数据计算。这样，Google其实不需要买很多很贵的服务器，它只要把这些普通的机器组织到一起，就非常厉害了。

当时的天才程序员，也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch，阅读了Google的论文后，他非常兴奋，紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。

两年后的2006年，Doug Cutting将这些大数据相关的功能从Nutch中分离了出来，然后启动了一个独立的项目专门开发维护大数据技术，这就是后来赫赫有名的Hadoop，主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。

当我们回顾软件开发的历史，包括我们自己开发的软件，你会发现，有的软件在开发出来以后无人问津或者寥寥数人使用，这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业，每年创造数百亿美元的价值，创造百万计的就业岗位，这些软件曾经是Windows、Linux、Java，而现在这个名单要加上Hadoop的名字。

如果有时间，你可以简单浏览下Hadoop的代码，这个纯用Java编写的软件其实并没有什么高深的技术难点，使用的也都是一些最基础的编程技巧，也没有什么出奇之处，但是它却给社会带来巨大的影响，甚至带动一场深刻的科技革命，推动了人工智能的发展与进步。

我觉得，我们在做软件开发的时候，也可以多思考一下，我们所开发软件的价值点在哪里？真正需要使用软件实现价值的地方在哪里？你应该关注业务、理解业务，有价值导向，用自己的技术为公司创造真正的价值，进而实现自己的人生价值。而不是整天埋头在需求说明文档里，做一个没有思考的代码机器人。

Hadoop发布之后，Yahoo很快就用了起来。大概又过了一年到了2007年，百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。

2008年，Hadoop正式成为Apache的顶级项目，后来Doug Cutting本人也成为了Apache基金会的主席。自此，Hadoop作为软件开发领域的一颗明星冉冉升起。

同年，专门运营Hadoop的商业公司Cloudera成立，Hadoop得到进一步的商业支持。

这个时候，Yahoo的一些人觉得用MapReduce进行大数据编程太麻烦了，于是便开发了Pig。Pig是一种脚本语言，使用类SQL的语法，开发者可以用Pig脚本描述要对大数据集上进行的操作，Pig经过编译后会生成MapReduce程序，然后在Hadoop上运行。

编写Pig脚本虽然比直接MapReduce编程容易，但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算，比如说你可以写个Select语句进行数据查询，然后Hive会把SQL语句转化成MapReduce的计算程序。

这样，熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度，迅速得到开发者和企业的追捧。据说，2011年的时候，Facebook大数据平台上运行的作业90%都来源于Hive。

随后，众多Hadoop周边产品开始出现，大数据生态体系逐渐形成，其中包括：专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop；针对大规模日志进行分布式收集、聚合和传输的Flume；MapReduce工作流调度引擎Oozie等。

在Hadoop早期，MapReduce既是一个执行引擎，又是一个资源调度框架，服务器集群的资源调度管理由MapReduce自己完成。但是这样不利于资源复用，也使得MapReduce非常臃肿。于是一个新项目启动了，将MapReduce执行引擎和资源调度分离开来，这就是Yarn。2012年，Yarn成为一个独立的项目开始运营，随后被各类大数据产品支持，成为大数据平台上最主流的资源调度系统。

同样是在2012年，UC伯克利AMP实验室（Algorithms、Machine和People的缩写）开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差，因为机器学习算法通常需要进行很多次的迭代计算，而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业，带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质，而2012年的时候，内存已经突破容量和成本限制，成为数据运行过程中主要的存储介质。Spark一经推出，立即受到业界的追捧，并逐步替代MapReduce在企业应用中的地位。

一般说来，像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算，因为它们通常针对以“天”为单位产生的数据进行一次计算，然后得到需要的结果，这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据，而是历史数据，所以这类计算也被称为大数据离线计算。

而在大数据领域，还有另外一类应用场景，它们需要对实时产生的大量数据进行即时计算，比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算，相应地，有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。流式计算要处理的数据是实时在线产生的数据，所以这类计算也被称为大数据实时计算。

在典型的大数据的业务场景下，数据业务最通用的做法是，采用批处理的技术处理历史全量数据，采用流式计算处理实时新增数据。而像Flink这样的计算引擎，可以同时支持流式计算和批处理计算。

除了大数据批处理和流处理，NoSQL系统处理的主要也是大规模海量数据的存储与访问，所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆，涌现出HBase、Cassandra等许多优秀的产品，其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

我们回顾软件发展的历史会发现，差不多类似功能的软件，它们出现的时间都非常接近，比如Linux和Windows都是在90年代初出现，Java开发中的各类MVC框架也基本都是同期出现，Android和iOS也是前脚后脚问世。2011年前后，各种NoSQL数据库也是层出不群，我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。

事物发展有自己的潮流和规律，当你身处潮流之中的时候，要紧紧抓住潮流的机会，想办法脱颖而出，即使没有成功，也会更加洞悉时代的脉搏，收获珍贵的知识和经验。而如果潮流已经退去，这个时候再去往这个方向上努力，只会收获迷茫与压抑，对时代、对自己都没有什么帮助。

但是时代的浪潮犹如海滩上的浪花，总是一浪接着一浪，只要你站在海边，身处这个行业之中，下一个浪潮很快又会到来。你需要敏感而又深刻地去观察，略去那些浮躁的泡沫，抓住真正潮流的机会，奋力一搏，不管成败，都不会遗憾。

正所谓在历史前进的逻辑中前进，在时代发展的潮流中发展。通俗的说，就是要在风口中飞翔。

上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成；数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等，内置了主要的机器学习和数据挖掘算法。

此外，大数据要存入分布式文件系统（HDFS），要有序调度MapReduce和Spark作业执行，并能把执行结果写入到各个应用系统的数据库中，还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。

图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系，我将会在专栏后面逐个分析，帮你能够对大数据技术原理和应用算法构建起完整的知识体系，进可以专职从事大数据开发，退可以在自己的应用开发中更好地和大数据集成，掌控自己的项目。

希望对您有所帮助！~

结构化存储（structured storage systems）的历史非常古老，典型的场景就是事务处理系统或者关系型数据库（RDBMS）。传统的结构化存储都是从单机做起的，比如大家耳熟能详的 MySQL。有句话说：MySQL的成长史就是互联网的成长史。这一点也不为过。除了 MySQL 之外，PostgreSQL 也是近几年来势头非常强劲的一个 RDBMS. 我们发现，传统的结构化存储系统强调的是：结构化的数据（例如关系表）。强一致性（例如，银行系统，电商系统等场景）随机访问（索引，增删查改，SQL 语言）。然而，正是由于这些性质和限制，结构化存储系统的可扩展性通常都不是很好，这在一定程度上限制了结构化存储在大数据环境下的表现。随着摩尔定律面临的瓶颈，传统的单机关系型数据库系统面临着巨大的挑战。不过真的没办法了吗.在此我们先埋下一个伏笔）非结构化存储（no-structed storage systems). 和结构化存储不同的是，非结构化存储强调的是高可扩展性，典型的系统就是分布式文件系统。分布式文件系统也是一个古老的研究话题，比如 70 年代的 Xerox Alto, 80 年代的 NFS, AFS, 90 年代 xFS 等等。然而，这些早期的分布式文件系统只是起到了网络磁盘的作用, 其最大的问题就是不支持容错（fault tolerance）和错误恢复（fault recovery）。而 Google 在 2003 年 SOSP 上推出的 GFS (google file system) 则是做出了里程碑的一步，其开源实现对应为 HDFS. GFS 的主要思想. Google 设计 gfs 最初的目的是为了存储海量的日志文件以及网页等文本信息，并且对其进行批量处理（例如配合 mapreduce 为文档建立倒排索引，计算网页 PageRank 等）。和结构化存储系统相比，虽然分布式文件系统的可扩展性，吞吐率都非常好，但是几乎无法支持随机访问（random access）操作，通常只能进行文件进行追加（append）操作。而这样的限制使得非结构化存储系统很难面对那些低延时，实时性较强的应用。

等会让他赶紧染发剂对人体

分布式系统在互联网时代，尤其是大数据时代到来之后，成为了每个程序员的必备技能之一。分布式系统从上个世纪80年代就开始有了不少出色的研究和论文，我在这里只列举最近15年范围以内我觉得有重大影响意义的15篇论文（15 within 15）。1. The Google File System: 这是分布式文件系统领域划时代意义的论文，文中的多副本机制、控制流与数据流隔离和追加写模式等概念几乎成为了分布式文件系统领域的标准，其影响之深远通过其5000+的引用就可见一斑了，Apache Hadoop鼎鼎大名的HDFS就是GFS的模仿之作；2. MapReduce: Simplified Data Processing on Large Clusters：这篇也是Google的大作，通过Map和Reduce两个操作，大大简化了分布式计算的复杂度，使得任何需要的程序员都可以编写分布式计算程序，其中使用到的技术值得我们好好学习：简约而不简单！Hadoop也根据这篇论文做了一个开源的MapReduce；3. Bigtable: A Distributed Storage System for Structured Data：Google在NoSQL领域的分布式表格系统，LSM树的最好使用范例，广泛使用到了网页索引存储、YouTube数据管理等业务，Hadoop对应的开源系统叫HBase（我在前公司任职时也开发过一个相应的系统叫BladeCube，性能较HBase有数倍提升）；4. The Chubby lock service for loosely-coupled distributed systems：Google的分布式锁服务，基于Paxos协议，这篇文章相比于前三篇可能知道的人就少了，但是其对应的开源系统zookeeper几乎是每个后端同学都接触过，其影响力其实不亚于前三篇；5. Finding a Needle in Haystack: Facebook's Photo Storage：facebook的在线图片存储系统，目前来看是对小文件存储的最好解决方案之一，facebook目前通过该系统存储了超过300PB的数据，一个师兄就在这个团队工作，听过很多有意思的事情（我在前公司的时候开发过一个类似的系统pallas，不仅支持副本，还支持Reed Solomon-LRC，性能也有较多优化）；6. Windows Azure Storage: a highly available cloud storage service with strong consistency：windows azure的总体介绍文章，是一篇很好的描述云存储架构的论文，其中通过分层来同时保证可用性和一致性的思路在现实工作中也给了我很多启发；7. GraphLab: A New Framework for Parallel Machine Learning：CMU基于图计算的分布式机器学习框架，目前已经成立了专门的商业公司，在分布式机器学习上很有两把刷子，其单机版的GraphChi在百万维度的矩阵分解都只需要2~3分钟；8. Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing：其实就是 Spark，目前这两年最流行的内存计算模式，通过RDD和lineage大大简化了分布式计算框架，通常几行scala代码就可以搞定原来上千行MapReduce代码才能搞定的问题，大有取代MapReduce的趋势；9. Scaling Distributed Machine Learning with the Parameter Server：百度少帅李沐大作，目前大规模分布式学习各家公司主要都是使用ps，ps具备良好的可扩展性，使得大数据时代的大规模分布式学习成为可能，包括Google的深度学习模型也是通过ps训练实现，是目前最流行的分布式学习框架，豆瓣的开源系统paracell也是ps的一个实现；10. Dremel: Interactive Analysis of Web-Scale Datasets：Google的大规模（近）实时数据分析系统，号称可以在3秒相应1PB数据的分析请求，内部使用到了查询树来优化分析速度，其开源实现为Drill，在工业界对实时数据分析也是比价有影响力；11. Pregel: a system for large-scale graph processing: Google的大规模图计算系统，相当长一段时间是Google PageRank的主要计算系统，对开源的影响也很大（包括GraphLab和GraphChi）；12. Spanner: Google's Globally-Distributed Database：这是第一个全球意义上的分布式数据库，Google的出品。其中介绍了很多一致性方面的设计考虑，简单起见，还采用了GPS和原子钟确保时间最大误差在20ns以内，保证了事务的时间序，同样在分布式系统方面具有很强的借鉴意义；13. Dynamo: Amazon’s Highly Available Key-value Store：Amazon的分布式NoSQL数据库，意义相当于BigTable对于Google，于BigTable不同的是，Dynamo保证CAP中的AP，C通过vector clock做弱保证，对应的开源系统为Cassandra；14. S4: Distributed Stream Computing Platform：Yahoo出品的流式计算系统，目前最流行的两大流式计算系统之一（另一个是storm），Yahoo的主要广告计算平台；15. Storm @Twitter：这个系统不多说，开启了流式计算的新纪元，几乎是所有公司流式计算的首选，绝对值得关注；

如何查看论文发表在何处

第一：在百度上输入nature搜索网页。点击nature网页进入nature杂志官网。

第二：进入nature官网后找到网页中间的Nature Journal下方的nature contents，上面标记这周nature期刊发表article的数目和内容，点击即可进入nature期刊文献。

第三：完成第二步后会出现这期所有的nature期刊内容，包括news之类的，只关注重点。

第四：网页往下拉直至找到article和letter。article代表本期nature上面已经发表了的实验结果。

一、怎么判断发表的论文是几区？

SCI期刊分区共有两种，一类是JCR分区，也就是汤森路透分区，共有Q1、Q2、Q3和Q4四个区，前25%(含25%)期刊划分为Q1区，前25%～50% (含50%)为Q2区，前50%～75% (含75% )为Q3区，75%之后的为Q4区。另一个分区是中科院分区，中科院分区也是有四个区，1区-4区，在称谓上与JCR分区不同，前5% 为该类1 区、6% ～ 20% 为2 区、21% ～50% 为3 区，其余的为4 区。

其实这两类分区最大的区别在于影响因子的区间标准不同，中科院分区中1区期刊比JCRQ1区期刊要少，质量上要更高，两种分区都是可以选择的，具体按照哪一种分区标准选择期刊要看作者单位的要求，目前来看，国内高校和科研单位应用比较多的是中科院分区，也有一些单位自己根据实际需求进行了期刊的分区，所以作者要看单位的具体标准来选择刊物。

二、如何学习SCI论文写作？

很多人认为，SCI论文写作技能就是英语写作能力。这个观点大错特错。SCI论文写作的核心是如何有逻辑的表达，而英语写作能力只是表达的载体。就像我们人人都会说中文，但演讲和写作水平却参差不齐。那么，应该如何培养自己的SCI论文写作技能呢?

1.不同的受众人群应该有不同的学习方法。刚刚步入科研行列的初级小白，应该以学习SCI论文的构造和创新性凝练为主，预知科研，提升速度；期望质量齐生的中级潜力股，应该以学习SCI论文的语言和发现科学问题为主，提高产量，提升效率；有望冲击顶刊的未来科学家，应该以学习SCI论文的逻辑表达和凝练前沿科学问题为主，提升水平，冲刺顶刊。

2.要目标明确，不能从零开始。现在，很多研究生的桌旁（如果有办公位的话）好像都有几本语法书、词汇书。但是，从头学习英语真的有帮助吗？切记，英语水平的高低与SCI论文的质量是没有绝对关系的。SCI论文写作技能的提升，不应从基础英语上提升，而是应该找到参照物，对比性地提高写作技能。这个参照物就是：文献。

3.真正读懂文献，合理使用文献，练习仿写文献。很多人把文献当作小说来读，从中获取的内容和知识点要么过于宏观，要么过于微观，这是不对的。最典型的问题，就是看时不懂，看完就忘。如何真正地会读文献和读懂文献，是迈入科研之门的门槛。除此之外，我们不仅仅是读者，将来还要当作者。这是读文献和读小说的本质区别。因此，如何把文献从小说变成工具书，是提升SCI论文写作技能的关键。解决以上问题的方法就是练习仿写，逐渐将作者的语言变成自己的语料库。

4.逻辑永远大于内容，内容永远大于语言。这里的逻辑、内容、语言三大要素，不仅仅指科技论文，也泛指整个科研过程。先想好，再做，再说。先了解编辑、审稿人和读者的关注点，再去有的放矢地投怀送抱，方能事半功倍。

5.尊重学习规律，按需逐级提升。如下图所示，要根据不同层级所遇到的问题，逐步地进行提高，逐渐实现质的飞跃。

三、怎样确定论文的研究方向？

1.领会自己感趣味的课题

或是钻研自己感趣味的形式是1件很幸福的事故。个体深造与翻阅业余文献，可能副手你更好地找到自己的趣味点。有了感趣味的形式，就要付之实际。

首先是查找关连材料，经由知网等东西可能紧急地检索到自己感趣味形式的关连文献，诚然还可能经由baidu、谷歌等浏览器以及图书馆等社会利润下载所需文献。有了具体的领会之后，再考虑是否要中止更深条理的钻研。

2.领略导师的钻研倾向

领会导师制定的钻研倾向和预期目的是必然钻研形式的又1行之无效的办法。

首先，应当具体地领会导师的钻研倾向。

其次，假设是导师给出的钻研倾向，那么1般是可行的；这时候咱们就要积极与导师近似，领会导师关于该课题的想法主见；在中止充盈、无效地更改之后，咱们就要对导师提出的提倡中止卖力考虑，可行度较高的话，便可能着手最先搜集材料，为论文完成打好根蒂根基。

3.向学长学姐咨询见识

三人行，必有我师焉。师兄师姐都是从这个阶段1步1步走夙昔的，已有1定的文献贮藏和丰富的履行指点，相关于咱们来讲，对导师的钻研作风也加倍领会，而且另有丰富的文献利润和论文写作指点。

以是在必然钻研课题早年，要积极主动地向学长学姐咨询，勇于向他们请教，冉冉积攒，梗概会有新的创作发明。

4.必然钻研思路和计划

“书读百遍，其义自见”，经由与导师、学长学姐的近似，咱们可能会对这个课题有1定新的认识，必然了钻研倾向之后，就要对近几年的文献中止更深的领会。

精读和泛读相结合，同时对论文的首要观念、论证举措措施中止记载，同时要中止思索钻研课标题标题前存在的标题以及须要改进的处所，形成1个完整的钻研计划。

5.坚持优良的心态

论文的写作注定不是1个简单的过程，但这恰正是磨练提高常识与伎俩的过程。伎俩不但采集业余常识的浸染，还采集优良的心态。

要学会充足自己的个体保留，找到合适的减压举措措施，在钻研倾向必然的过程中碰着瓶颈期要学会给自己加油鼓劲，信赖风雨之后总能见到彩虹。

以上就是怎么判断发表的论文是几区的全部内容。

1、百度搜索：国家新闻出版总署期刊查询，一定要选择带有官网字样的网站。打开。

2、下图箭头所指为报纸的查询办法，打开以后，把您想要查询的报纸名称输进去，可以查到说明是正规刊物。

例如：

3、下图箭头所指为期刊的查询办法，打开以后，把您想要查询的期刊名称输进去，可以查到说明是正规刊物。

例如：

4、下图箭头所指为电子刊物的查询办法，打开以后，把您想要查询的电子刊物名称输进去，可以查到说明是正规刊物。

例如：

注意：

相关百科

熟鸡蛋反生论文在何处发表

2024-07-05

bigtable论文发表在何处

2024-07-05

如何查看检索的论文发表在何处

2024-07-05

国内知名论文发表在何处

2024-07-05

谷歌三大论文发表在何处

2024-07-05

论文在何处注明已发表

2024-07-04