《自然语言理解》课程设计_自然语言理解技术
《自然语言理解》课程设计由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“自然语言理解技术”。
自然语言理解课程设计报告 姓名
组员
所在学院
专业年级
报告提交时间
联系电话
电子信箱
赵子豪黄承功赵子豪2011级电子信息工程*** zzh0526ac@163.com
课题分析
机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Proceing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。
机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。
机器翻译系统可以分为多种类型:基于规则的机器翻译系统,基于语料库的机器翻译系统,基于实例的机器翻译系统,多引擎机器翻译系统,语音机器翻译系统。随着因特网的发展,网络上的语言障碍越来越严重,为了克服网络交流中的语言障碍,还出现了一些专门面向网络的机器翻译系统。国内外研究进展 已经取得的进步:
•近十几年来,机器翻译取得了巨大的进步
•统计机器翻译取得巨大成功,从基于词的模型发展
到了基于短语的模型和基于句法的模型
•机器翻译的统计方法和规则方法走向融合•机器翻译系统开发效率大为提高:数年-->数周•应用范围大大拓展:Google翻译支持几十种语言
•翻译质量也有了明显上升,已经成为日常工具
依然面临的困难:
•翻译质量仍然不够理想(婴儿期)
•需要大规模训练语料库:数据稀疏问题
•需要与应用场合相近的语料:领域适应性
•语言形态的复杂性还没有好的处理办法
•语言之间差异性很大时翻译质量不理想
各系统主要技术要点
Systran:基于规则的机器翻译系统
美国的SYSTRAN系统:美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已达到实用水平。例如,提供给美国空军的SYSTRAN系统,词典有16.8万个词干形式和I3.6万个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可
译30万—35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。
AT&T公司的语音机器翻译系统
AT&T公司的阿尔萨瓦基(AlshawaKi,1998)等开发的语音翻译系统由语音识别、机器翻译、语音合成三部分组成。他们在机器翻译部分采用的算法非常独特,这实际上是一个基于平行概率语法的机器翻译系统。
Verbmobil系统
Verbmobil系统与我们所熟悉的文本翻译系统的不同之处主要体现在: —语音处理:要进行语音识别和语音合成。该系统的目标很高,实现了GSM语音条件下的自动翻译,除了一开始拨打Verbmobil语音服务电话以外,整个系统的服务可完全用GSM电话通过语音方式实现,无需任何按键操作;系统具有语音自适应能力,一开始使用与说话者无关的语音识别模块,通过一段时间对话后,自动适应说话者的口音,提高识别正确率;
—处理自然的语音:要考虑现实口语中的各种复杂现象,如停顿、重复、修正、漏词等等;要建立对话模型,理解句子的语义,并考虑上下文进行翻译,甚至要猜测说话者的意图
TRASLATION ADAPTORⅡ
NEC公司的”TRASLATION ADAPTORⅡ”:能进行英日和日英的双向翻译,除翻译之外,还可进行查词典、例句检索、英文主页写作、英文电子邮件写作等工作,翻译时对于英日文化差异而形成的语文中的细微色彩的不同比较注意,基本词典9万词,价格9800日元。
雅信CAT-2.5和东方快车3000
雅信CAT-2.5以词为单位进行切分,东方快车3000以词组为单位,两种软件都带有专业词库,并综合了近年来计算机语言学的一些成果,如引入了复杂特征集等,对于宾语从句,定语从句翻译也注意了译文的词序的重新排列。然而,国内的翻译软件似乎基本上都采用上下文无关语法,其优点是编泽程序过程用时短,缩短了开发周期,见效较快。这种语法20世纪60年代曾在国外机译研究中被广泛采用,但它的不足之处在上述两种软件中也有所体现。
各系统性能比较分析
Google和Systran翻译比较
Google翻译均较Systran的得分高,在连贯性上Google翻译也均较Systran的得分高,说明Google翻译的译文质量较高。在新闻、商业文本和小说类型上,两个翻译系统所存在的差异较小。在小说文本中,两个翻译系统均取得了最高的分数,而体育新闻的翻译则得分最低。在体育文章上,Google翻译比Systran得分又相对高一些。在完整性和连贯性上,完整性的得分也比连贯性要高。两种系统在小说上得分差异最小,在体育上得分差异最大。
对Google和Systran翻译的四种类型文本译文的评估结果,Google翻译在所有的四种文本类型上都比Systran的表现更好。总体来看,Google译文的得分要比Systran的高,平均分相差0.1265,其中商业文本差距最大,小说差距最小。从不同类型文本的得分来看,小说得分最高,体育报道类得分最低;两种系统得分相比,在小说上得分差异最小,在体育上得分差异最大。
将人工评估结果与BLEU的进行对比分析,发现它们对两个翻译系统译文质量评价具有一致性。表现在:均认为Google翻译译文要比Sys-tran译文质量高;均认为小说的译文质量最高,体育报道的译文质量最差;均认为系统之间小说类上得分差异最小,在体育上得分差异最大。这种现象的产生原因是BLEU的评估基于N-gram(大词汇连续语音识别中常用的一种语言模型,国际上处于主流地位的一种分词方法,它按照固定单词数进行分词,单词数目(N)越大,准确性就越高)对标准译文和原文比对,句子的意思完全不同仍可获得较高的分数。
AT&T公司的语音机器翻译系统
这种方法的主要特点是:
1.训练可以全自动进行,效率很高,由一个双语句子对齐的语料库可以很快训练出一个机器翻译系统;
2.不使用任何人为定义的语言学标一记(如词性、短语类、语义类
等等),无需任何语言学知识;
3.训练得到的参数包含了句子的深层结构信息,这一点比IBM的统计语言模型更好。
这种方法比较适合于语音翻译这种领域较受限、词汇集较小的场合,对一于大规模的文本翻译并不合适。,但这种做法对我们开拓思路还是非常有借鉴意义的。
Verbmobil系统
多种基准的测试以及大规模端对端评价实验令人信服地表明,Verbmobil的最终版本系统中达到了所有的预定目标,有些目标甚至被超越了。在大规模翻译实验中,正确翻译率达到大约80%在真实用户的端对端测试中,90%的对话任务获得成功。
TRASLATION ADAPTORⅡ
—词典容量大而不失其准:由于网络上英语涉及面广,词汇十分丰富,网络翻译系统的词典容量都很大,至少可以帮助人们查询不认识的生词,弄清生词的准确含义;
—翻译速度快而不失其要:便于在网上快速浏览并查找所需要的信息,了解网上信息的梗概要略,译文具有可读性。
—译文质量粗而不失其信:译文能传达英文原文的意思,以“信”为首先的追求目标,而不要求做到译文的“达”和“雅”。
—翻译方式多而不失其巧:既可以使用Web浏览器将英语原文下载到PC机上进行翻译,也可以在网络上直接控制进行翻译,一也可以使用poxy代理服务器代表客户机传送服务请求,通过翻译软件在Web浏览器上把英语直接翻译为日语,还可以仅只查词典,翻译方式多样而巧妙,以适应不同用户的要求。
—文本格式严而不失其便:译文尽量保持英语原文的“超文本”特点,满足HTML超文本置标语言的要求,便于用户在网络中畅游。
未来的研究展望
半个世纪以来,机器翻译研究虽几经曲折但终究已经得到了普遍的承认,其应用也已愈益广泛。特别令人鼓舞的是无论是国外还是国内现在已有那么
多的商品化系统进入市场,尤其是PC机译产品。同时随着PC的普及以及为满足浏览因特网的需求,机译产品进入千家万户的趋势已开始显露。
机器翻译的展望世界机器翻译研究已走过了50多年的曲折历程,目前一些翻译软件产品如“龙方雅信CAT”等基本上已达到了实用水平。随着全球网络化和经济全球化的发展,机器翻译在农业及其他领域的应用前景会越来越广阔。对于机器翻译研究者来说,如何进一步提高机器翻译系统的翻译质量是机器翻译研究的核心,也是他们始终追求的目标和责任,需要计算机、语言学、心理学、逻辑学、数学、人工智能等多学科的综合研究成果。技术方面,预计在双语/多语语料库多级加工、统计方法和机器学习方法、转换方法、语义和知识表示等几方面将得到研究进展。应用方面,在Internet环境下的应用、个人计算方面的应用、领域受限的子语言应用、翻译工作站和翻译辅助工具等几方面将得到进一步的开发应用。对于农业数字图书馆,以上机器翻译技术的发展将整体提高它的多语种农业信息的提供能力,从而更好地为农业数字图书馆的用户提供服务。可以相信,随着机器翻译研究和计算机技术的不断深入发展,终将有一天,世界上不同语种国家的人们可以借助机器翻译产品达到在各种场合自然无障碍的交流。
参考文献
1.《机器翻译研究》-冯志伟著2004
2.《机器翻译技术的进展与展望》刘群、王海峰、王惠临、宗成庆、赵铁军、史晓东、朱靖波、陈家俊、张民2011-12
3.《机器翻译研究的展望》董振东
4.《中国机器翻译研究的机遇与挑战:第八届全国机器翻译研讨会总结与展望》杜金华;张萌;宗成庆;孙乐
5.《Systran和Google翻译系统英译汉质量评价—以四类文本翻译为例》廖梦麟(海南医学院外语部,海南海口571199)
6.百度百科“机器翻译”
7.《外语翻译文化第3辑》-屠国元主编2003
8.《外语翻译文化第3辑》-屠国元主编2003 P211