[互联网通信]google创始人写的关于如何建立goolge搜索系统的论文

erjian2022-06-02101

《The Anatomy of a Large-Scale Hypertextual Web Search Engine》

  这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。我们可以从/ 下载。

  设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。

  本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。

  本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。

  我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。

  1.1 网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。1994年,第一个Web搜索引擎,World Wide Web Worm(个查询。

  在1997年11月,Altavista 声称它每天要处理大约20’000’000个查询。随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。

  1.2 Google:跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。

  1. 3设计目标 1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。1994年,有人认为建立全搜索索引(a complete search index)可以使查找任何数据都变得容易。根据Best of the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。实际上,到1997年11月为止,四大商业搜索引擎中只有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜索结果。因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用[Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]。尤其是链接结构[98页]和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。

  1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。1993年,只有1.5%的Web服务是来自.com域名。到1997年,超过了60%。同时,搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有,很少技公开术细节。这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(见附录A)。Google的主要目标是推动学术领域在此方面的发展,和对它的了解。另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有几千万个研究。然而,得到这些数据却非常困难,主要因为它们没有商业价值。我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。

一、关于互联网金融的起源与内涵

  互联网金融从字面上就是互联网与金融,结合的两个概念,即是在互联网模式下实现的金融创新发展,而“金融”仍然是其本质的属性,就在新载体进入互联网之后,金融实施业务模式及监管模式发生了巨大的变化。目前,我国互联网金融的定义尚不明确,也没有形成统一的概念。一些国内学者也对此作出了不同的解释,但基本上同意互联网金融是在互联网技术支持下,利用互联网的开放、平等、共享、和经验最高经营金融业务优势,打破传统的金融模式,实现金融行业的创新发展。

  (一)互联网支付,是目前比较流行的新型资金结算方式。利用互联网与平台间进行货币的支付和流转。一般最常见都是通过电脑和手机等线上的方式来完成订单的支付。目前主要的三种支付方式:网银、移动及第三方支付。

  (二)互联网基金销售,是目前在互联网支持下的基金销售业务的新发展趋势。而当前的传统基金销售已达到了互联网线上全天候的销售服务模式。而基金销售公司基本上都已经建立了自己的网络销售平台。除此之外,还有第三方平台也是受到广大网民的欢迎。

  (三)P2P网络借贷,是针对个人对个人,然而通过网络平台向有资金需要的人进行借贷活动,从而获得相应的利益。现以脱离了传统银行的这种模式,让借贷业务更加的方便、高效和直接。不过还是有存在的很大的风险,如:准入门槛低、网络监管不到位。

  (四)电商小额贷款,是电商企业通过与银行进行合作,为旗下的微小企业提供小额贷款。而目前电商小额贷款是比较的火热的,基本上都是可以向类似于阿里巴巴等等的电商企业平台借贷。

  (五)众筹融资,是指互联网平台为融资者提供了更广阔的融资渠道,为众多投资人发起按投资比例获得相应回报的融资活动。其特点:投资者可全程参与,且融资速度快。而目前,最主要的众筹融资模式包括公益众筹、股权众筹以及奖励类众筹。

  (六)互联网保险,是目前一种新型的保险销售模式,以互联网作为媒介进行保险的销售,然而实现保险销售中网络化发展。而目前较多的平台是中介代理与第三方平台。

二、关于金融互联网化背后的行业变革

  今天的互联网,毋庸置疑是一个最具创新的朝阳行业,中国互联网发展的这十几年里,造就了百度、阿里、腾讯这样的巨无霸,显然成就他们霸业的除了自身的创新努力因素外,根本的是顺应了中国现阶段经济社会发展乃至政治的“天时地利”。今天成就的360,小米等,也恰恰是利用互联网的力量颠覆传统的安全、手机的行业。正是因为互联网应用的普及,加速了物流、信息流、现金流效率,正是因为传统产业信息的不对称、竞争的不充分给了互联网企业进入的大好机会,这些草根的经过充分竞争的互联网企业无异于一辆辆装备精良的战车开进传统行业这个步兵方阵,得心应手所向披靡!创新、融合、跨界成了今天发展的主旋律。

  中国的金融行业,随着互联网企业的进入,无疑也是引起狼来了的一片呼声!在这个领域的搏弈中,我们大家都是息息相关的看客,抑或是参与者,相信都在关注,更遑论不可或缺的政府监管部门。互联网金融的上演可谓一场众人瞩目的大戏!

  360赢在安全的免费上获得用户,小米赢在利用摩尔定律在手机上的创新上赢得了价格战,我们回头看看传统金融的模式,再看看今天的互联网金融的模式,再对比下二者的区别,起码我只看到了,无非是通过互联网的渠道获取用户,但所有的流程依然是通过线下,依然是一堆一堆的纸来诠释金融的本质。不可否认,今天的互联网给很多行业带来了机遇和毁灭,任何的行业都可以通过互联网进行革命,推动产业的发展,但如果没有改变它的本质,我并不看好今天人人随便搭一个网站,打着互联网金融的旗号,招摇撞骗,遍地可看到各种平台卷款逃跑的恶文。

  为何互联网金融从去年到现在会有如此大的发展,特别是在今年得到一个快速增长的一年,核心还在于信息不对称,需要钱的不知道找谁借钱,放款的不知道该怎么来放款;另外一个因素则就是国家放开企业注册条件,大量的中小企业对资金的需求也就迅速的增长。金融在市场的刚需立马被放大,并且大量的平台帮助企业和个人打通信息不对称的缺口,如融360(rong360.com)、好贷网(haodai.com)、万贷好(wandaihao.com)等平台就如同风口上的猪,想不飞都难。慢慢的一些机构和平台,手里有一些钱,或者拉3-5个放贷公司,就开始了p2p之路了,有借有还还好,关键的是,在诚信体系尚不健全的中国,有借无还的比例达到2位数,平台无法把握风控,追究成本又太高,自然而然跑路的就多了,加之目前金融的监管机制还不完善,受伤的自然还是用户。

[互联网通信]google创始人写的关于如何建立goolge搜索系统的论文

  金融要互联网化,必须要有深刻的行业变革,必须要有很强的革新力量,抛开社会道德问题,诚信问题,浮现在金融行业的根本问题就是风险的把控,风险的评估上。依然依靠传统的征信报告,账单流水,企业规模来做金融,那是不具备变革的,靠着网上申请就谈互联网金融,想必太过肤浅。而通过互联网的力量,云技术,大数据分析,通过数据背后的逻辑关联,能给借款人进行打分,并不是随随便便的公司能做得到的,具有大数据分析能力的阿里、腾讯、百度、360、258、等姑且可通过多年的累计得到结合。

  互联网金融是一个新的定义,很多人不明白互联网金融的真正含义,就妄自菲薄,倒不如用心去了解下,解决颠覆这个行业的痛点,如何应用互联网的技术解决风控问题,也许有可能成就另外一个巨无霸,起码在金融行业,我们能看到宜信普惠的动作,他们也只是在摸索阶段,那么又何来的那么多“披着羊皮的狼”(p2p平台)。

  很赞同258集团庄良基在《拆掉互联网那堵墙》中对互联网金融的一段说道:

  “我们认为就算互联网金融它再火爆,它还是金融概念,那不是我擅长的。互联网金融还是金融,无非随着时代发展有点创新而已。互联网金融还是金融,无非利用互联网而已。”

本文链接:http://www.dengper.com/gupiao/1356.html 转载需授权!

变革背后互联网金融关于

上一篇:深圳融天创科信息技术有限公司互联网金融

下一篇:互联网理财有哪些风险呢?

相关文章

网友评论