信息检索作业_专业信息检索作业

2020-02-28 其他范文 下载本文

信息检索作业由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“专业信息检索作业”。

拉里·佩奇简介

拉里·佩奇,全名劳伦斯·爱德华·佩奇(LawrenceEdwardPage),美国密歇根大学安娜堡分校的荣誉毕业生,拥有密歇根大学理工科学士学位和斯坦福大学计算机科学博士学位。佩奇是Google公司的创始人之一,2011年4月4日正式出任谷歌CEO。2013年,拉里·佩奇获选2013美国40岁以下最有影响力CEO,并以230亿美元资产荣登福布斯2013全球富豪榜第二十位。

家庭身世

拉里·佩奇1973年出生在美国密歇根州东兰辛市的一个犹太家庭,父亲卡尔文森·佩奇是一个密歇根州立大学计算机教授,拥有计算机科学博士学位,母亲葛洛丽亚·佩奇也是密歇根州立大学(MSU)的一个计算机教授,是一名犹太教徒。

求学时代

拉里·佩奇在1975-1979年就读于奥基莫斯的蒙台梭利学校,并于1991毕业于东兰辛高中。

1992年佩奇进入密西根大学学习,在美国安阿伯就读期间,他担任密西根大学EtaKappaNu荣誉学会的会长,并是太阳能汽车组织的成员之一,他还用乐高积木制成一台可编程的绘图喷墨打印机,其指导教授是TerryWinograd博士。

1996年,佩奇进入斯坦福大学学习,在攻读计算机理学博士学位期间,拉里·佩奇遇到了谢尔盖·布林,[6]佩奇在斯坦福大学获得博士学位后,开始休学。

2003年获得IE学院工商管理硕士学位。创建谷歌

1996年,佩奇和布林开始合作研究一名为“BackRub”的搜索引擎,到1998年上半年逐步完善这项技术后,两人合作运行Google搜索,并以PageRank为基础给网页排名,同时两人也开始为这项技术寻找合作伙伴。

他们找到雅虎的创始人之一戴维·菲洛,菲洛认为他们的技术确实很可靠,但建议他们自己建立一个搜索引擎公司发展业务,发展起来后再考虑合作。他们的一位教师,也是SUN微系统的创始人之一安迪·别赫托希姆在关键时刻给予他们很大帮助。别赫托希姆确是个很有远见的人,在看完他们的演示后,立马开了张10万美元的支票帮助成立Google公司。之后两人又从家人朋友那里到处借钱,筹得100万美元作为最初投资。

1998年9月7日,Google公司在加利福尼亚州的曼罗帕克正式成立。他们雇用了第一位员工克雷格·希尔弗斯坦成为Google公司的科技主管。

1999年2月他们搬了新的办公室,虽然条件仍然简陋,但比车库好点,一张乒乓桌就作为正式的会议场所,8名员工在办公室里都转不过身,一个人要出门所有人都得起身挪开凳子才能腾出地方。到了6月份时,Google得到红杉资本和KleinerPerkinsCaufield两家风险投资基金的2500万美元注资,并在9月21日这天,Google不再是测试版的搜索引擎,开始每天处理约3亿个搜索结果。

2000年在佩奇的领导下Google发展成为最大的互联网搜索引擎,雅虎选择Google作为默认的搜索结果供应商。

2001年,佩奇辞去了CEO的职位,从Novell公司聘请埃里克·施密特博士担任谷歌公司CEO,自己则担任了产品总监。

2003年,佩奇主导谷歌在以1.02亿美元收购了Semantics和Sprinks后推出AdSense,这一广告计划能按照网站内容做广告。2004年,Google在纳斯达克上市。

谢尔盖·布林简介

谢尔盖·布林全名谢尔盖·米克哈伊洛维奇·布林(1973.08.21-),英文名:Sergey Brin,俄语:Сергей Михайлович Брин,美国籍俄罗斯裔企业家,Google公司的创始人之一。谢尔盖目前是Google董事兼技术部总监,近年来在《福布斯》全球亿万富豪排行榜上始终名列前茅,2011年他以198亿美元位列第24位。2013福布斯全球亿万富豪榜排名第21位。

谢尔盖·布林出生在前苏联一个犹太人家庭。5岁那年,布林跟随父母一起移民美国,从而开始了他美国式的成功历程。他的父亲迈克尔是一位数学家,曾在前苏联计划委员会就职,并曾在莫斯科一所学校任教。

谢尔盖·布林 来到美国后,父亲迈克尔在马里兰大学谋得一个教职,直到现在他还是该学校的数学教授。而布林的母亲则是美国宇航局的一名专家。

其实,布林的祖父也是一名数学教授。受家庭的影响,幼年时期,布林的数学天才就开始显山露水,他同时对电子学有着浓厚的兴趣早在念小学一年级的时候,布林就向老师提交了一份有关计算机打印输出的设计方案,这让老师大为吃惊要知道,当时计算机还刚刚开始在美国普通家庭出现。

中学毕业后,布林进入马里兰大学攻读数学专业,同时双修了计算机科学。父亲迈克尔希望他能沿着自己的足迹成民,在数学的道路上一走到底然而,布林并没有按照父亲给他设定的规划发展。由于成绩杰出,布林在取得理学学士学位后获得了一个奖学金,随后进入斯坦福大学。在斯坦福大学,这位天才学生再次得到命运的青睐,校方允许他免读硕士学位而直接攻读计算机专业博才坦福大学攻读计算机专业博士学位。不过,布林在斯坦福攻读博士期间选择了休学,与在斯坦福结识了拉里·佩奇。两人开始使用宿舍里廉价的主机,应用布林所设计的数据挖掘系统为基础,试图编写出一个卓越的搜索引擎。随着这项计划越来越有成功的可能性,两人遂先暂停其在斯坦福的大学学业,在从苏珊·沃西基(后成为Google高级副总裁)借来的车库里持续发展Google。

2教育经历

谢尔盖毕业于马里兰大学,但是他所建立的Google却只收常春藤盟校的毕业生。谢尔盖曾在马里兰大学学习计算机科学和数学,并于1993年5月获得科学学士学位,而后,他获得美国国家科学基金会的奖学金进入斯坦福大学攻读计算机科学的博士学位,他于1995年8月获得该学位。

谢尔盖还获得了西班牙皇家研究院(Instituto de Empresa)的荣誉工商管理硕士学位。3创立谷歌

24岁创立Google公司 谢尔盖·布林

互联网魅力深深地吸引着布林,他把互联网视为通往未来的必经之路。早在上大学的时候,布林就已经发明了一种超文本语言格式的搜索系统1998竿9月,24岁的布林和25岁的佩奇决定合伙开个公司,公司提供的唯一服务就是搜索引擎在对商业计划一无所知的情况下,布林从一位斯坦福校友那里顺利地拿到了第一笔投资:10万美元。

依靠这10万美元,在朋友的一个车库里,布林和佩奇开始了Google的征程。创立之初,公司除了布林和佩奇之外,就只有一个雇员——克雷格。希尔维斯通——Google现在的技术总监。他们的努力工作不久就得到了回报:那时的Googie每天已经有了1万次搜索,开始被媒体关注1999年,又有两名风险投资家向Google注入了2500万美元的资金,帮助Google进入了一个崭新的发展阶段。

可以说,Google取得的成功源于其创建者布林和佩奇的想象力,同样也源于他们的天赋U在Google创建之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。而布林则另有高见,他认为,决定文档在搜索结果中排列位置的因素是一个文档在其它网页中出现的频率和这些网页的可信度,网页在受众中的知名度和质量是决定性因素。事实证明,布林是正确的。

Pagerank算法的介绍

1.PageRank算法概述

PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。

是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。2.从入链数量到 PageRank

在PageRank提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,这种入链方法假设一个网页的入链越多,则该网页越重要。早期的很多搜索引擎也采纳了入链数量作为链接分析方法,对于搜索引擎效果提升也有较明显的效果。PageRank除了考虑到入链数量的影响,还参考了网页质量因素,两者相结合获得了更好的网页重要性评价标准。对于某个互联网网页A来说,该网页PageRank的计算基于以下两个基本假设:

数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。

质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。

利用以上两个假设,PageRank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的PageRank得分,直到得分稳定为止。PageRank计算得出的结果是网页的重要性评价,这和用户输入的查询是没有任何关系的,即算法是主题无关的。假设有一个搜索引擎,其相似度计算函数不考虑内容相似因素,完全采用PageRank来进行排序,那么这个搜索引擎的表现是什么样子的呢?这个搜索引擎对于任意不同的查询请求,返回的结果都是相同的,即返回PageRank值最高的页面。3.PageRank算法原理

PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下:

1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。

2)在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算。.2 基本思想:

如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/L(T)

其中PR(T)为T的PageRank值,L(T)为T的出链数

则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

即一个页面的得票数由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。3.3 PageRank简单计算:

假设一个由只有4个页面组成的集合:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。

继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。

换句话说,根据链出总数平分一个页面的PR值。

优点:

是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。缺点:

1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低

2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。HITS算法的介绍

HITS算法(Hyperlink-Induced Topic Search),HITS 算法是由康奈尔大学(Cornell University)的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心(IBM Almaden Research Center)的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

一个网页重要性的分析的算法。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

描述

HITS[1](Hyperlink – Induced Topic Search)算法是利用HubPAuthority的搜索方法, 具体算法如下: 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为S,则S满足: 1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T.以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图.对V1 中的任一个顶点v ,用h(v)表示网页v 的Hub 值,且h(v)收敛;对V2 中的顶点u ,用a(u)表示网页的Authority 值。

开始时h(v)= a(u)= 1 ,对u 执行I 操作,修改它的a(u),对v执行O操作,修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的I操作和O操作,直到a(u),h(v)收敛。其中I操作:a(u)= Σh(v);O 操作: h(v)= Σa(u)。每次迭代对a(u)、h(v)进行规范化处理: a(u)= a(u)/Σ[ a(q)]2;h(v)= h(v)/Σ[ h(q)]2。

《信息检索作业.docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
信息检索作业
点击下载文档
相关专题 专业信息检索作业 作业 信息检索 专业信息检索作业 作业 信息检索
[其他范文]相关推荐
    [其他范文]热门文章
      下载全文