武汉理工信息检索论文(推荐)_信息检索论文怎么写

2020-02-27 其他范文 下载本文

武汉理工信息检索论文(推荐)由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“信息检索论文怎么写”。

摘要:中文信息处理在信息处理中占有非常重要的位置,其 在机器翻译、信息检索、人机对话等各个领域发挥着非常积极的作用。中文分词是中文信息中最基本、最重要的一项研究课题。本文总结目前常用中文分词发展现状,主要算法、面临难点。

关键词:中文分词 分词算法

中文分词是中文信息中最基本、最重要的一项研究课题,是对中文信息进行处理的第一步。它是指将组成句子的汉字序列用分隔符加以区分,切分成一个个单独的词。由于中文本身复杂性及语言规则的不确定性,给中文分词带来了很大困难。而信息检索的相关技术研究也迫切需要分词技术的实现,同时分词技术的应用范围已经开始延伸到各个行业,例如机器翻译、信息检索、搜索引擎与中文输入法、问题答疑和文本挖掘等等。由此对中文分词算法的理论研究和对应用相关研究都是很重要的。

国内外发展现状

目前国际上比较通用的语言还是英语等其它语言,对于汉语的相关自然语言研究并不是很多。国外主要有微软开发的NLPwin中文分词系统。它扩展了北大的词典,在对上下文本有较好理解的前提下能够比较好的处理歧义切分问题。还有mmseg4j 分词器,基于最大匹配算法的前提下,通过规则过滤来提高切分的成功率,它主要应用于自然语言理解、信息查询、语音处理等领域,分词的结果比较理想。

国内,中文信息领域中有人提出可以用机器自动分词后,便开始出现了一些较为实用的分词方案。如由北京航空航天大学采用的是查询词典的方式设计并实现的CDWS分词系统;张永奎等人研究使用最大匹配算法实现了中文自动分词系(NEWS);北京航空航天大学自主研发并使用ASM算法实现的CASS系统(中文自动分词系统);由哈尔滨工业大学车万翔博士带队研发出的Ltp语言技术平台;还有基于Apache Lucene的基础上改进研发出的IKAnalyzer分词器。伴随着中文分词的相关使用领域越来越多,更多对这个领域感兴趣的人开始更为深入的方案研究和实现。例如SEG和SEGTAG分词方案试图用有向图的方法来对信息进行整合、哈尔滨工业大学实现的基于统计的中文分词方案使用了上下文本的信息来进行未登录词发现,最后用统计模型来匹配找出未登录词、复旦大学实现的分词方案处理歧义切分、北京大学实现分词方案以词性标注作为切入点,在分词时使用词性标注进行校验、杭大实现的改进MM分词方案以词典的组织结构作为切入点,选择了统计的算法来识别大部分的未登录词、中国科学院提出的一种以词法分析作为切入点,选择基于统计的N-最短路径策略进行处理等等。

中文分词算法

在过去的三十多年里经过学者们的研究和探索,中文分词已取得了长足的进步,准确度获得了提升。目前主要的中文分词算法有:

1、基于字符串匹配(机械)的分词方法

字符串匹配法又叫机械分词法。这种中文分词方案它需要有一个词典,我们认为这个词典能够包含我们所需要的所有的词,然后基于这个词典,把没有切分的文本按某种规则取一部分和词典中的词逐一进行比较,查询成功则识别出这个词,失败则再重新选取待查询的部分。这样循环匹配下去最终达到切分原文本的效果。想要提高基于字符串匹配的分词方法的准确率,必须保证词典的“大”、“全”、“准”,这也正是机械分词法的瓶颈所在。在这种方法中,按照匹配字符串方向的不同,可以分为正向最大匹配算法(FMM)和逆向最大匹配算法(RMM)、双向最大匹配算法,按照所优先匹配的长度的不同,又可以分为最长匹配和最短匹配两种,如果按照其在匹配过程中是增加字符还是减少字符的方式分类,还可以分为增字分词法和减字分词法。

2、基于理解的分词方法

这种方法通过汉语中的组织习惯和思维方式的相关知识来进行分词的,同时会简历汉语分词的数据信息库。通过汉语语言组织原则和使用习惯等去判别出现歧义时的切分结果。目前主要使用的方法主要有:

1、专家系统分词的方法,它是按照语言学家的角度来建立分词所需的知识库。这个知识库与切词的实现相互独立,可以在完善知识库的同时不影响切词过程。这种方法的切词的过程就是利用知识库推理句子的语法树的过程。但是需要大量的关于中文的信息,机器梳理信息时消耗大量的资源,算法复杂度非常高。

2、基于神经网络的分词算法。这是一种非线性的方法,采用分布式的并行处理方法来计算模型,利用自学习来完善模型,最后达到正确分词的效果。但是它需要非常长的训练时间,并且不能对自己的推理模型作出相应的解释,对新词的识别结果也很一般。

3、基于统计的分词方法

基于统计的分词方法是利用概率学来解决语言问题的一种方法,依据人的直观感觉,语料中任意两个字出现在一起的次数越多,说明它们之间的关系越密切,那么它们组成词的可能性就越大。由字构词的思想是现在的主流思想。这种类型的分词法通过统计语料中的相邻出现的字的组合的频度,计算各种他们之间的互信息,利用各种统计模型来计算字组成词的概率,当概率高于某个阂值时,就认为组成了一个词,因为一个字符串会有多种切分方法,这类分词方法会通过设定的参数来找出概率最大的切分方式。通常这一类基于统计的分词法不依赖于词典,因此也被称为无词典分词法。在这种方法中,常常使用的模型有N元统计模型、隐马尔可夫模型阎、最大嫡模型等。

中文分词算法存在的主要难点

虽然经过长时间的研究,到现在已经有了很大进展,但由于中文本身复杂性,还没有出现一个百分百完美的方法。目前面临的几个重要问题有:

1、没有一套统一并且通用的分词规范。与此同时,实际中很多具体的产品或者分词系统对于中文分词方案的准确性和分词速度的要求差异都很大,比较难达成一个大家共识的中文分词标准。

2、相同的一段文字在中文分词中可能因为产生不同的划分而产生歧义。一段中文文本可以根据不同的匹配方式和算法进行样式繁多的切分方式,这个过程中难免会出现机器不知如何处理的歧义情况。

3、未登录词的识别:由于新词的不断增加,词典则常有一些未登录词,而且这些词的组织结构往往和传统意义上的词不同,通过规律去查找匹配出这些未登录词基本是不可能的。这使得基于词典的中文分词算法难于识别那些未登录词。

除此,针对目前这些难点,有很多人对原有的方法进行改进,研究出一些新型的方法。比如基于互信息改进算法的新词发现对中文分词系统改进、、统计与词典相结合的分词方法、基于词典的中文分词改进算法、基于汉语拼音首字母索引的混合分词法、基于词频统计的分词法,基于语义扩展的分词法,基于CRF的古汉语分词研究、基于委员会投票的主动学习中文分词方法的研究等。这些方法的研究都有一定的效果,但是还是没有完全解决目前的问题。

结论:

中文分词是在这个信息爆炸时代最重要的研究问题之一,处理好中文分词,可以给中文信息处理中的其他研究带来突破性的发展,给人们带来更加准确的信息搜索体验。但由于汉语的复杂性,现在还没有一个完美的中文分词方法,之后的研究可以针对目前中文分词的主要问题,结合多种方法或对现有方法和统计模型进行优化以达到更好的效果。

参考文献:

[1] 周祺 基于统计与词典相结合的中文分词的研究与实现 哈尔滨工业大学

2015.12 [2] 杜丽萍 李晓戈 于根 刘春丽 刘睿 基于互信息改进算法的新词发现对中文分词系统改进 北京大学学报 2016.01 [3] 韩冬煦 常宝宝 中文分词模型的领域适应性方法 计算机学报 2015.12 [4] 梁喜涛 顾磊 中文分词与词性标注研究 计算机技术有发展 2015.02 [5] 张黎 徐蔚然 中文分词研究software 北京邮电大学 2012.12

《武汉理工信息检索论文(推荐).docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
武汉理工信息检索论文(推荐)
点击下载文档
相关专题 信息检索论文怎么写 论文 武汉理工 信息检索 信息检索论文怎么写 论文 武汉理工 信息检索
[其他范文]相关推荐
    [其他范文]热门文章
      下载全文