深圳大学毕业论文排版_深圳大学毕业论文

2020-02-27 其他范文 下载本文

深圳大学毕业论文排版由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“深圳大学毕业论文”。

深 圳 大 学

本 科 毕 业 论 文(设计)

题目: 个人搜索引擎的实现

姓名: * * *

专业: 计算机科学与技术

学院: 计算机与软件学院

学号: 2007*******

导师: * * *

职称: 副教授

2011年5月5日

深圳大学本科毕业论文(设计)诚信声明

本人郑重声明:所呈交的毕业论文(设计),题目《个人搜索引擎的实现》 是本人在指导教师的指导下,独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式注明。除此之外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。本人完全意识到本声明的法律结果。

毕业论文(设计)作者签名:

日期: 年

目录

摘 要.........................................................................1

引 言..................................................................................................................................................................3 1 概述............................................................................................................................................................4 1.1 1.2 2 研究背景及意义.............................................................................................................................4 本课题主要工作.............................................................................................................................4

全文索引与搜索技术................................................................................................................................5 2.1 2.2 全文检索.........................................................................................................................................5 本实验对数据库连接的封装.........................................................................................................5本地文件全文搜索实验方案....................................................................................................................6 3.1 3.2 实现方案介绍.................................................................................................................................6 工程模块各类关系介绍.................................................................................................................65 结论............................................................................................................................................................8 附 录........................................................................................................................................................11

i 摘 要

针对通用搜索引擎无法访问内部网、SNS网络和个人电脑文档信息的问题,本文提出并实现了基于Lucene与IKAnalyzer的个人搜索引擎。

关键词 Lucene;网页内容提取;全文索引;IKAnalyer

ABSTRACT This paper proposes and implements personal search engine based on Lucene and IKAnalyzer for the deficiency of general search engines which fail to reach some isolated websites, such as internal websites of organizations and social network for the security factors.For the same reason, information of documents stored in personal computer also cannot be searched.The main functions of this system can be described as: Firstly, document information retrieval on PC.By extracting text from TXT, Word, Excel and PDF documents, a unified index is created.And the locale file search engine is implemented with a graphical interface.Secondly, retrieval system for information of closed network(SNS, microblog, internal network).By breakthrough user rights, loading webs real-time, analyzing the structure of pages and extracting text, an index is created and saved to local database.This paper solved the slowne problems due to the huge amount of data in network space by combining the real-time network index and local database index.The retrieval system is developed which integrated school board, Tencent microblog and the notes of Renren.com using Java web.In addition, this system improves the deficiencies of general search engines and satisfies the basic needs of personalized search from the results of analysis.keywords Lucene;Web Content Extraction;Full-text Index;IKAnalyze

引 言概述

1.1 研究背景及意义

搜索技术能够为用户提供信息检索,网址导航的功能,是现在网络用户访问互联网的最主要方式。通用搜索引擎能够提供一站式的信息服务,但是存在返回结果不准确,专业性不深,个性化不强的缺点。不同于通用搜索和垂直搜索引擎,我们提出从个人信息环境出发的个人搜索引擎。个人环境最主要的即包括个人电脑文档信息和个人用户常接触的网络信息,其中最典型的个人网络环境有SNS网络【1】,常关注的博客网络,单位内部网络和微博信息。用户电脑数据和个人信息网络往往是其它搜索引擎无法涉及到的信息孤岛【2】。而这些信息对用户来说是最重要也是最常用的数据,因此提出个人搜索引擎具有重要的应用价值和研究意义。

1.2 本课题主要工作

本文主要解决的问题包括兼容各种文档格式,提取文档正文和关键字, 建立各种文档格式的索引, 突破用户权限实现社会网络、微博、内部网信息一站式搜索。最后开发出一套集成桌面搜索和网络搜索的个人搜索引擎。满足用户对本地文件的全文检索及对校内公文通、腾讯微博、人人网日志信息的全文检索。全文索引与搜索技术

2.1 全文检索

功能上全文检索引擎【3】需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。目前,实现全文信息检索有两大基本方案,词索引和字索引。

字索引,以汉语单字为索引单位的检索算法。这种方法往往会引起多查的错误。

词索引,以单词为索引单位的检索算法。西文又是以单词为语言要素,每个西文单词之间都有一个空格。因此,在对全文数据库建立索引的时候,按照单词划分建立索引,是既简单又自然的。我国最开始引入全文检索技术的时候,是汉化西文的数据库系统,因此也就自然使用了词索引技术。但由于中西文环境中语素的不同特点,使得中文全文信息检索必须要解决分词的问题。

2.2 本实验对数据库连接的封装

本次实验在JDBC的基础写了一个管理数据库的封装类。封装了与数据库连接方法,数据库数据更新方法。类结构如图2-1 数据库管理类所示:

图2-1 数据库管理类 本地文件全文搜索实验方案

3.1 实现方案介绍

实现方案如图3-1所示

文件遍历文件夹路径索引创建索引遍历文件夹内所有文件包括子文件夹实例化IKAnalyzer分词器判断文件类型,只接受txt,doc,docx,xls,xlsx,pdf文件信息创建Lucene索引对象,IndexWriter实例添加lucene内部document循环添加创建ExtractorAll提取内容文件内容根据文件类型 分别调用不同的 类 来实现txt--------------------------ExtractorTXT.javadoc/docx---------------ExtractorWord.javaxs/xlsx------------------ExtractorExcel.javapdf------------------------ExtractorPDF.java优化索引存储索引文件关闭索引搜索关键字搜索结果搜索图 3-1 本地文件全文搜索-设计方案示意图

3.2 工程模块各类关系介绍

本部分非原文内容,仅用于说明表标注格式。

在现代无线通信中,数据都是以数据包装的方式来进行传输的。对NRF9E5这样的无线片上系统,每次发送/接收数据也都是以数据包装的方式来进行的。数据包格式是通信协议的重要部分,NRF9E5的无线数据包格式如表3-1 氨标准系列所示:

管号 标准工作液ml 吸收液ml 氨含量μg

0 0 10.00 0 1 0.25 9.75 0.25 2 1.00 9.00 1.00 3 3.00 7.00 3.00 4 5.00 5.00 5.00 5 7.00 3.00 7.00 6

10.00

0

10.00

表3-1 氨标准系列

结 论

本次实验基于Lucene全文检索库与IKAnalyzer中文分词库,针对本地文件,实现了常用格式文件的全文检索系统。

通过穿越网络个人空间权限,对其网页内容进行提取,并进行索引,实现了对校内公文通系统的全文检索,腾讯微博的全文检索,人人网日志相关信息的全文检索系统。

在后续的工作中,将对网络个人空间的检索系统进行优化,并从数据来源上进行扩充,使之成为信息量大,效率高的检索系统,最后可以为社区网络数据挖掘提供更好的帮助。

致谢

首先衷心地感谢傅向华老师。在我大学生涯里,给予了很多指导与帮助。本次毕业设计,从选题到论文撰写,给予我很多宝贵的意见。傅老师渊博的学识、严谨的治学态度及认真负责的工作态度都使我受到鼓舞和熏陶。在此向傅老师表示崇高的敬意和衷心的感谢。

感谢四年以来老师们的辛勤授课,丰富了我们的知识,拓宽了我们的视野,提高了我们发现问题、解决问题的能力,使我的思想产生了质的飞跃。

感谢开源社区,提供了很多开放源码与类库,为我提供了庞大的优秀代码资源,使我在程序开发过程中得到很多启发。

感谢一直关心我、支持我的父母和朋友们。

参考文献

王俊杰.冲出信息孤岛,实现数字资源共享[J].大学图书馆学报, 2004(3):16-18.袁梦倩.论SNS新型社交网络的传播模式与功能—基于“校内网”的现象研究[J].今传媒,2009(4): 78-80.李刚,宋伟,邱哲.征服Ajax + Lucene构建搜索引擎[M].北京:人民邮电出版社,2006.附 录

《深圳大学毕业论文排版.docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
深圳大学毕业论文排版
点击下载文档
相关专题 深圳大学毕业论文 毕业论文 深圳大学 深圳大学毕业论文 毕业论文 深圳大学
[其他范文]相关推荐
    [其他范文]热门文章
      下载全文