信息检索结课论文_网络信息检索结课论文
信息检索结课论文由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“网络信息检索结课论文”。
信息检索结课论文
题
目:Web数据挖掘在Web信息检索中的应用
学
院:
电子工程与自动化学院
专
业:
仪器仪表工程
学生姓名:
凡阳阳
学
号:
1708304011
授课教师:
李凤英
Web数据挖掘在Web信息检索中的应用
凡阳阳
(桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004)
摘 要:信息检索经过近几年的发展,在一定程度上满足了人们查找知识的需要,但是在检全率和检准率上还是不尽如人意。将数据挖掘技术运用到信息检索中,可使未来的网络信息检索更加精准、个性和智能化首先介绍并分析了Web信息检索,主要针对Web信息检索的局限性,引出Web数据挖掘,并介绍的数据挖局技术。然后讨论了如何将Web数据挖掘应用在Web信息检索上,以及数据挖掘与其他技术的结合在信息检索中的应用,最后对信息检索的未来发展进行了展望。
关键字:Web信息检索;Web数据挖掘;可视化技术;开放网络知识库
Application of Web data Mining in Web Information Retrieval
FAN Yangyang(Guilin Electronic Engineering and Automation Institute , Guangxi Guilin 541004)Abstract:Information retrieval has met people's need of finding knowledge to some extent in recent years.However, the rate and accuracy of information retrieval are still not satisfactory.The use of data mining in information retrieval, the future network information retrieval more accurate, personality and intelligence firstly introduces and analyzes the Web information retrieval, mainly aiming at the limitations of Web information retrieval, Web data mining, and introduces the data mining technology bureau.Then it discues how to apply Web data mining to Web information retrieval, and the application of data mining combined with other technologies in information retrieval.Finally, it forecasts the future development of information retrieval.Key words: Web Information Retrieval;Web data Mining;Visualization Technology;Open Network knowledge Base 0 引言
Web提供了丰富的数据资源, 要想充分利用这些海量的数据, 需要强有力的信息检索工具。目前的现状是“数据丰富,但信息贫乏”,人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。Web上的搜索引擎部分地解决了资源发现问题,但是用户从大量资源中不能快速、准确地得到所需的有价值的信息。Web信息检索经过这么多年的发展,在一定程度上满足了人们查找知识的需要,但是在检全率和检准率上还是不尽人意。因此,人们需
标记的半结构化数据都是内容挖掘所需要处理的对象。因而,网络内容挖掘常从以下两个方面进行。
Web页面内容挖掘。网络页面内容挖掘常采用的技术是文本挖掘和多媒体挖掘。文本挖掘是直接挖掘Web文档内容或指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。大多数能用于数据库的文档挖掘方法如分类、聚类、关联分析等经过相应的改进处理后均可应用于Web内容挖掘。除此之外,Web文档中的一些标记,、等蕴含了一些直接表示信息,可利用这些信息提高Web文本挖掘的质量。
搜索结果再挖掘。即对其他信息检索工具的检索结果进行的再次挖掘。一些系统就通过分析搜索引擎查询的结果,如URL、标题、内容类型、内容长度和超文本链接等信息,提炼出更合适的结果,也有的将搜索结果聚类,然后再将其分类并利用文档可视化将其表示出来。3.2 Web结构挖掘
Web结构挖掘即挖掘Web潜在的链接结构模式,从Web组织结构和链接关系中推导知识。比如可以通过Web链接结构识别权威网页,主要方法有HITS算法、Google的PageRank算法、Propriteary算法等网页排序挖掘算法,其挖掘方式主要表现在以下两个方面:
网页引用挖掘。网页中包含了大量的链接关系,几乎所有的Web站点页面之间的联系都是通过超链来实现的,通过对这些链接关系的分析,可以发现哪些网页被链接次数最多,从而可分析得到哪些网页相对比较重要。
网站结构挖掘。站点链接和站内链接的构造方式基本上是一样的。本质上,每个Web站点的结构都具有层次性。通过数据挖掘以及用户访问模式等分析,可以使网站的架构更加完善,可以改进网站的链接结构及内容呈现的方式,提高使用者浏览的兴趣,吸引更多的人浏览。
3.3 Web使用记录的挖掘
网络使用挖掘即通过挖掘访问日志(Web Acce Log)记录,发现用户访问Web页面的模式。网络内容挖掘、结构挖掘的对象是网上的原始信息,而使用挖掘的对象是用户与网络交互过程中产生的第二手数据,这些数据包括来自于每个Web服务器和Cookies保留的用户注册信息、访问记录以及有关用户与系统交互的信息等。它包括以下两种方法:
一般访问模式追踪。通过追踪分析记录,可以了解用户的访问模式和倾向。访问模式的获取有助于网站的重构,研究特殊的用户行为等。
个性化的使用记录追踪。分析单一用户的偏好,根据不同用户的访问模式,为每个用户提供个性化的服务。通过分析个人的倾向,可以给用户提供不同的信息资源和信息的显示方
研究, 可以更好地对搜索引擎的效果进行反馈, 进一步改进搜索引擎。用户对搜索引擎检索结果的进一步操作就有了智能性,而且这种智能性随着使用者的增多会不断加强, 使得单个用户感觉到所使用的搜索引擎更加高效。Web信息检索中数据挖掘与其他技术的结合在网络信息检索的实际应用中,往往不是单一地运用数据挖掘技术,数据挖掘需和其他相关技术结合,才能发挥出更大的效用。5.1 数据挖掘与可视化技术的结合通常来说,如果能将业务问题转化成多维的、可比较的、地理的或者层次的问题,那么,它们可以通过数据可视化工具和技术来研究、分析和评估。
将检索过程与检索结果可视化。在整个过程中,使发现知识的过程和结果易于理解,便于在发现知识过程中进行人机交互。如中国气象局设置了网上极轨气象卫星资料可视化的检索页面。将可视化技术作为计算机与用户之问的沟通纽带,为用户提供关于数据和知识的直观信息。
5.2 数据挖掘与开放网络知识库的结合开放网络知识库的构建包括3个部分,即知识库的构建、多源知识的融合以及知识库的更新。
基于开放网络知识库的数据挖掘包括3方面内容,即线索挖掘、关系推理和关系预测。开放网络知识库的发展为下一代智能搜索和深入信息挖掘与分析提供了重要的基础.目前已经从数据积累阶段逐步向产品产出阶段转化.知识图谱和实体搜索已经成为Web搜索的标志性技术。
5.2.1 智能搜索引擎
近年来,国内外的大型搜索引擎相继推出了基于知识库的搜索新产品。
人物关系搜索。将所有与关键字相关的这些信息按照网络流行度或关系亲密度进行排序。目前包括微软人立方、雅虎人物搜索以及Facebook的社交图谱都提供人物关系搜索功能。
知识关系搜索。知识关系搜索引擎是知识管理的一种实现理念与工具,通过搜索引擎技术完成知识管理的使命。依托知识库的构建,目前包括Google知识图谱、百度实体搜索、搜狗知立方、中国科学院的开放知识网络等 5.2.1 商业情报分析系统
近年来,通过构建以知识图谱为代表的大规模领域知识库,结合传统网络数据统计方法,7-