自动情感文本分类研究综述_文本分类研究综述
自动情感文本分类研究综述由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“文本分类研究综述”。
自动情感文本分类研究综述
夏火松/彭柳艳/余梦麟
2012-10-26 14:07:35 来源:《情报学报》(京)2011年5期
【英文标题】Review on Automatic Sentiment Text Claification
【作者简介】夏火松,男,1964年生,武汉科技学院经济管理学院院长,教授,博士,硕士生导师,主要研究方向:知识管理、文本挖掘、信息管理和电子商务,武汉430073;彭柳艳,女,1984年生,武汉科技学院研究生,主要研究方向:情感分类,信息管理,E-mail:gogoply@yahoo.cn,武汉430073;余梦麟,女,1985年生,武汉科技学院研究生,主要研究方向:知识管理,信息管理,武汉430073
【内容提要】情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习和心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论文对情感分类目前国内外的研究概貌进行了分析,将现有文献中的研究方向分为四个类别,并对这四个类别分别进行了描述,对情感分类中的关键问题进行了研究,提出了情感分类的一般框架,最后对目前研究中存在的不足进行了讨论,对情感分类研究的发展方向进行了展望。
Sentiment claification and its applications have been witneed a booming interest in nowadays research, it is a cro research of natural language proceing, machine learning and psychology, and has practical applications in many fields, such as product reputation analysis, public opinion tracking, blogger interests analysis, and so on.This paper gives an overview of the current study on sentiment claification of domestic and international, divides research directions of existing literature into four categories, then describe these four categories in detail, and analyzes the key iues in this field, then proposes a general framework for sentiment claification, finally, discu the shortcomings of current study, and predicts the development trend.【关 键 词】情感语义词典/主观识别/情感分类/舆情跟踪/声誉分析/研究综述Sentiment semantic lexicon/Subjectivity identification/Sentiment claification/Public opinion track/Reputation analysis/Review 引言
随着互联网技术的发展和用户的增多,网络逐渐成为人们沟通和信息交流的主要载体,人们在网络站点发表意见和观点也变得很便捷。对产品的评论信息以各种不同的形式存在于不同的网站上面,很典型的有:电子商务网站(淘宝,亚马逊)、专业的评论网站、博客和论坛等。现在大部分人在购买商品和服务之前,都会在网上浏览评论信息获取先验知识。企业通过关注网上的评论信息,可以追踪用户的反馈信息,及时调整产品和销售问题。在某种程度上这些评论信息主导了潜在用户的购买意愿。因此,对这些评论进行深入分析,无论是对于企业还是个人都有很大帮助。而近年来,“人肉搜索”现象时有发生,网络热点层出不穷,“某门”(王石捐款门等)事件在网上传得沸沸扬扬,很大程度上影响了人们的行为,引起了人们对网络舆情的极大关注。情感分类和观点挖掘技术能够更加科学地描述这些现象的本质,引起了研究者们对这类课题的极大关注。
论文对这一课题的相关内容进行了研究,研究过程中获取参考文献和相关资料的步骤如下:以“sentiment claification”或“opinion Mining”或“sentiment analysis”为关键词,在SpringerLink,EBSCO,Elsevier,SCI,EI等外文数据库中下载了2007-2009年的最新相关外文文献,剔除重复下载和无关文献,共得到42篇相关文章。同时采用参考文献追溯法,对2007年以前的文章进行了追溯,最早可以追溯到1996年,在Google Scholar里面下载了相关引用频次较高的文献101篇,即共得到143篇外文文献;在中国期刊网和维普数据库里面以“情感分类”或者“情感分析”或者“观点挖掘”为主题作为检索条件,通过筛选,剔除,下载了相关中文文献70篇。通过对这些文章的阅读和分析,得到了后面的分析结论。
论文采用如下的组织结构:在第二部分,对情感分类的国内外研究现状进行了总体概括;第三部分对该领域的相关研究进行了一个分类描述;第四部分对情感文本分类中的几个关键问题进行了探讨,并提出了网络评论情感分类的基本研究框架;最后对目前存在的问题和以后的研究方向给出了建议。情感分类研究的总体概貌
自动文本分类是信息检索领域的一个重要的研究方向。大多数对于自动文本分类的研究都集中在基于主题的文本分类上。除了文本的主题之外,文本还有很多其他重要的特征对信息检索起到很关键的作用。例如,对于文本的风格或者流派(文章是一篇社论还是通知,是促销性还是资讯性的,作者归属等)进行分类,和对文本所表达的情感(文章表达的是正面的还是负面的情感及情感表达强弱)进行分类。基于主题的分类与基于情感的分类有一个相同点就是,为了能够正确地分类,需要找出能够表示文档的特征项,这也是所有文本分类的基本任务。对于基于主题的分类而言,找出主题词是主要目标,而对于情感分类而言,评论者对于某一主题的情感词汇是主要目标。鉴于文章的关键词比较充足,有利于文章的主题分类,而对于情感的分类而言,复杂性在于要识别情感目标,检测混合和交叠的情感,要找出文章的情感特征就比较困难。
在现有的文献中,不同的作者对于情感分类的任务有几种不同的提法,除了情感分类以外,归纳起来还有以下几种:观点挖掘[1],情感分析(检测)[2],倾向性分析[3],意见挖掘[4]等。为了不造成理解上的歧义,在这篇论文中,我们用情感分类来进行描述。自动情感分类被应用到了很多有意义的领域,如评论的分类,产品声誉的分析,舆情跟踪,将自动情感分类整合到问答系统[5]和多文档摘要系统中,博客情绪,政治观点分析[6,7]及关注热点分析[8,9]等。虽然有一些国际会议对情感检测的问题进行了专门的探讨,如ACL、AAAI、www.daodoc.comLP-05, Jeju Island, Republic of Korea, 2005.[69]Kim S M, Hovy E.Identifying and analyzing judgment opinions[C]//Proceedings of HLT/NAACL-2006, New York City, 2006.[70]Chan K T, King I.Let's Tango-Finding the Right Couple for Feature-Opinion Aociation in Sentiment Analysis[C]//Theeramunkong T, et al.PAKDD 2009, LNAI5476, 2009: 741-748.[71]Li J, Sun M S.Experimental Study on Sentiment Claification of Chinese Review Using Machine Learning Techniques[C]//IEEE Xplore, 2007: 393-400.[72]Zhang Z Q, Li Y J, Ye Q, et al.Sentiment Claification for Chinese Reviews Using Machine Learning Methods Based on String Kernel[C]//Third 2008 International Conference on Convergence and Hybrid Information Technology, 2008: 909-914.[73]Li L L, Yao T F.Kernel-based Sentiment Claification for Chinese Sentence[C]//Sixth International Conference on Advanced Language Proceing and Web Information Technology, 2007: 27-32.[74]Wiebe J, Wilson T, Cardie C.Annotating expreions of opinions and emotions in language[J].Language Resources and Evaluation, 2005, 2(1):165-210.[75]Prabowo R, Thelwall M.Sentiment analysis: A combined approach[J].Journal of Informetrics, 2009, 3:143-157.[76]Turney P D, Littman M L.Unsupervised learning of semantic orientation from a hundred-billion-word corpus[R].Technical Report ERB-1094.National Research Council Canada, Institute for Information Technology, 2002.[77]Turney P D, Littman M L.Measuring Praise and Criticism: Inference of Semantic Orientation from Aociation[J].ACM Transactions on Information Systems, 2003, 21(4): 315-346.[78]Matsumoto S, Takamura H, Okumura M.Sentiment claification using word sub-sequences and dependency sub-trees[C]//PAKDD 2005, 2005: 301-311.