上帝的旨意和垃圾邮件_怎样明白上帝的旨意
上帝的旨意和垃圾邮件由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“怎样明白上帝的旨意”。
上帝的旨意和垃圾邮件
你一定无法想像《神的善行》的作者,他试图证明的上帝的旨意结束后政府使人类幸福的准则与我们讨论的概率有关。你可能说试图解决机会理论问题中的试验是概率的问题。但上面两项研究都是由Thomas Bayes写的,他曾经是部长和神学家。你如果没有猜到上面两项研究的作者是同一个人,也不要感觉不好,因为你的错误猜测可以帮助你应用贝叶斯统计,比如过滤垃圾邮件,关于此后面将学到更多。
An Eay Towards Solving(关于机会的试验)…写完这个试验以后,Bayes就把他放在了一边,我们只知道这篇文章在Bayes死后才由他的朋友Richard Price发表。依据Price的观点,这项研究证明了上帝的存在,是通过世界的结构一定是受智慧和智者的力量影响的,进而证明神明的存在。Bayes本人对这项研究是很谦虚的,他写道:“数学不是试图使人们理智思考,只是为了有趣(Price发表这篇文章时,把这些话去掉了)。
尽管Price很热情的宣扬贝叶斯定理,它还是受到了大多数统计学家的反对,他们的理由是定理中所用到的先验概率其实就是主观概率。另一些人的观点,认为先验概率需要不断的更新,不可能显示所有更新后的先验概率的结果(能很好的显示当前的结果)。
然而一直有少数的统计学家,和众多的非统计学家支持贝叶斯定理。贝叶斯定理在统计学的边缘保持了150年以上。贝叶斯定理经历了被统计学届放逐的漫长历程终于开始了回归到统计学。那是在1940年,An Eay Towards …再次发表,Edwards, Deming做了评论。(具有讽刺意味的是,像贝叶斯定理一样,Deming的很多观点也被忽视,直到晚些时候才被广泛接受,在第18章中将对此做解释。)现代计算机的发展把贝叶斯统计带入到了主流研究领域。
如今,贝叶斯统计正在使得计算机变得越来越智能化。可以用贝叶斯技术进行数据挖掘、图像识别等。你所喜欢的互联网搜索引擎有可能就使用了贝叶斯技术,也就是使得你的搜索最大可能的接近你所要寻找的。但是你常遇到的垃圾邮
件也是使用了贝叶斯技术。
回到第一段中提到的Bayes的两项研究。研究文中单词出现的频率。一篇关于统计的文章出现机会(chance)、问题(problem)和解决(solving)等词汇。18世纪关于神学和宗教的文章出现的是第一个字母为大写的Divine和Providence。有一些词汇在这两类文章中都很少出现如sedimentary, igneous,和metamorphic。有一些词汇可以出现在所有类型的书籍中,如a, an 和the。
因为使用了概率,这些句子中的关键词可能是,也可能不是。当然可能和不可能是模糊的概念,我们不能完全保证我们对一本书的分类是完全正确的。有一本书是关于一部影导演John Waters(头发用着定型发胶)可能谈到他与他几部电影的明星Divine一起旅游,去见Providence(在Rhode岛上)。我们不会误解这是一部关于十八世纪神学方面的书籍,因为书中的其他词汇如film和movie不可能在十八世纪出现。
把书籍进行分类是复杂的,在这里很难解释。但我们可以找到简单的问题加以解决,如新来的邮件是垃圾邮件还是合法的邮件?如果我们关注所有的发到一个地址上的邮件,我们通过程序来寻找垃圾邮件和合法邮件常用词汇的频率,以获得贝叶斯定理的先验概率。当研究者实现了上述研究,就实现了贝叶斯垃圾邮件功能。
过滤功能需要计算:“在知道某个词出现后,邮件是垃圾邮件的概率“,如果已知垃圾邮件中出现这个词汇的概率P(A/B)和一个邮件是垃圾邮件的概率P(B),可以使用贝叶斯定理(公式4.9)推出上述概率。
贝叶斯过滤功能可以很快地识别垃圾邮件并且避免把合法邮件当作垃圾邮件。大部分的贝叶斯过滤功能忽视两种邮件共同出现的词汇。过滤功能也可以通过垃圾邮件中高概率的词汇集以及低概率的词汇获得。
垃圾邮件制造者(喜欢发送垃圾邮件的人)为了成功发送垃圾邮件,也在研究这样新的过滤技术。当知道以往的垃圾邮件中Viagra出现的概率高时,垃圾邮件制造者会以把词汇故意拼写错误的方式愚弄过滤功能,如把Viagra写成Vi@gr@或V1agra。但他们不会得逞的,因为错误拼写的词汇比原来的词汇更容易被发现是垃圾邮件。当然过滤功能也一直不断的被训练。也就是概率的更新以及使用者的反馈(如被标记是合法邮件的却是垃圾邮件)。如果最初Vi@gr@被
当作垃圾邮件,但是过滤功能很快就会知道这样的邮件是垃圾邮件。(不要担心会把合法邮件当作垃圾邮件,大部分的过滤功能的建立是与概率有一定的偏差从而使得把合法邮件当作垃圾邮件的可能性减小。)
有一些其他的垃圾邮件制造者学了一点过滤功能的知识,决定把”good“一词加到邮件中。因为这个词在垃圾邮件中出现的概率非常低。因而他们认为,这样就会改变过滤功能的评价结果,把垃圾邮件当作了合法邮件。但是这些垃圾邮件制造者没有注意到条件概率P(A/B)是一直不断更新的,一旦过滤功能发现了“good”一词,P(A/B)的值也会增大。他们还是不能通过垃圾邮件中的稀有词汇通过过滤器(在合法邮件中也是稀有的词汇)。
经过几次过滤器的阻挡之后,垃圾邮件制造者似乎要学习更多的贝叶斯统计的知识。一些人认为他们可以通过插入随机词汇来攻破过滤器的防御。这些随机词汇会使得很多词汇的概率P(A/B)变低。因而贝叶斯过滤器会把很多垃圾邮件当作合法邮件。因为网络上总是有网页,可以进行复制,以实现上述方法。对于此,我们不进行深入的讨论,你来指出为什么这样的攻击行为不能长期得逞,为什么这种方法不像人们最初设想的能获得成功。
如今,垃圾邮件的制造者还是一直企图攻破贝叶斯过滤器。一些垃圾邮件的制造者决定去掉邮件中的所有或者大部分文字,而用图形取而代之,使得过滤器以为邮件中没有几个词汇。但这样的方法同样会失败。因为贝叶斯过滤器除了识别词汇以外还可以识别事件。贝叶斯定理是关于所有事件的邮件中只有图形与邮件中有一些文字同样都是事件。
事实上,由于各种原因,现在大多数邮件过滤器采用包括贝叶斯技术在内的多种技术的组合。反贝叶斯过滤器的战争逐步升级,最终这场战争将以统计战胜垃圾邮件制造者而告终。
从贝叶斯定理的故事以及处理垃圾邮件问题中你增加了很多见识。你知道了智慧发现的起源以及边缘知识如何发展为主流知识。你看到了统计学家对于重要的概念也有不同的意见。当然你可以思考一下如何找到神的善行的证明。也许,你已经开始思考如何在你的生活领域以你没有想到的方式应用统计以及统计学对一个受过良好教育的人是多么的重要。