《数学之美》读书笔记感触_数学之美读书笔记1000
刀豆文库小编猜你可能喜欢“数学之美读书笔记1000”。
《数学之美》读书笔记感触(精选19篇)由网友“FurchTloss”投稿提供,下面是小编帮大家整理后的《数学之美》读书笔记感触,希望对大家的学习与工作有所帮助。
篇1:《数学之美》读书笔记个人感触
很多人都觉得,数学是一个太高深、太理论的学科,不接近生活,对我们大多数人来说平时也根本用不到,所以没必要去理解数学。但事情真的是这样吗?
其实不然,数学一直渗透在我们生活的各个方面,尤其是在今天这个信息时代,很多简单朴素的数学思想,能发挥一般人很难想象的巨大作用。比如,计算机处理自然语言,用到的最重要工具是统计学的思想;计算机对新闻内容的分类,依靠的是数学里的余弦定理;而电子电路的基本逻辑,则来源于仅有0和1两个数字的布尔代数。
在《数学之美》里,吴军用自己在工作中使用数学的亲身经历,为我们展现了数学的重要性,以及他对数学之美的理解。吴军是“得到”App专栏《吴军的谷歌方法论》的主理人。曾先后供职于谷歌和腾讯,是著名的自然语言处理专家和搜索专家。同时,他还是位畅销书作家,除了这本《数学之美》以外,还写过《文明之光》《智能时代》《浪潮之巅》等多本畅销书。
篇2:数学之美读书笔记
数学用在模型上而不是现实世界中,需要抽象思考出模型,即数学对象是其所做。数系扩充中,复数i并没有比无理数根号2更特殊的地方,因为它们作为抽象的数学构造,如果充分自然,则必能作为模型找到它们的用途。实际上正是如此。
数学中有个根本性的重要事实:数学论证中的每一步都可以不断地分解成更小更清晰有据的子步骤,但是这样的过程最终会终止。原则上,最终会得到一条非常长的论证,它以普遍接受的公理开始,仅通过最基本的逻辑原则一步步推进,最终得到想要求证的结论。所以,任何关于数学证明有效性的争论总是能够解决的。争论在原则上必然能够解决这一事实使数学作为一个学科是独一无二的。在这里,公理系统的主要问题不是真实性,而是自洽性和有用性,即数学证明就是由特定前提能够得出特定结论,而不考虑该前提是否正确。数学归纳法原理正是使用了这一“根本性的重要事实”:假设关于任意正整数n有一陈述s(n),如果s(1)为真,且s(n)为真总蕴含s(n+1)为真,那么s(n)对任意n都为真。
我不清楚这一“根本性的重要事实”在现实中的使用范围有多大,但由此可以聊一点别的问题。现实中,如果甲对事情有A观点(或说价值观),乙有B观点,并为此争执。有下面几种情况:1,在上述的范围之外,即没有定论。2,有定论,但是双方都没有给出足够的证据证明和反驳。3,有定论,一方给出了足够的证据(或者反驳理由),因为表达能力导致表述不清晰而没有说服对方。4,有定论,一方给出了足够的证据(或者反驳理由),因为对方理解不够或理解偏差导致没有被说服。第234条与这几项有关:知识量,表达能力,理解能力,对外界的认知和自我认知。其中语言本身的局限性会一定程度上影响表达和理解,认知能力是一项综合的要求很高的能力。“评论”这件事就是个很合适的例子。如果说创造更需要的是才气,那么评论更需要的就是能力。但是,无论双方是否知道有无定论,很多情况下需要陈述不少或很多证据或反驳理由,由第234条可知人与人交流的效率很低,并且可能伴随一些冲突。若考虑到一些人的利益因素等,交流会更复杂。
篇3:数学之美读书笔记
近来,我通过中国大学MOOC的慕课《数学建模》获悉一部叫《牛津通识读本》的新出版科普系列。同时购入的有六本——《数学》《法律》《佛学概论》等。由于告知该书的慕课是数学课,我首先阅读的是《数学》。
令我意外的是,本系列的书每本篇幅都短小精悍得让人愉悦(英文类书系列名就叫A Very Short Introduction)。就这本16开大小的《数学》中,有实际内容的只100页左右,剩下的有数十多页附注/答疑,与及100多页的英文原稿(原书作者高尔斯是英国学者)。本书内容质量非常高,并未使『西方当代学科科普』这个标签失色。再考虑到其篇幅如此短小,看来,以后为非理工科班出身的青年们推荐数学科普书,就不必只记得伊恩·斯图尔特与马丁·加德纳了。
虽然这是数学科普,但作者可深知读者心。西方作者所著的数学科普,一向都很能熟练地脱公式脱符号讲问题。与同类书籍比较之下,本书还有个小小的特点:其章节叙述顺序,既不硬从数学史(人类认知史)的流程,也不完全顺应个体认知心理学(教育学)的顺序。开篇破题他选的议题是『数学模型』,非数学专业学生最能适应的一种破题点;然后第二章紧紧承接主题『模型化』,开谈『抽象化』。这个过程的叙述行云流水。我感觉作者很懂怎样说该说的、省去不必说的、跳过不能说的。
第二章《数与抽象》中,作者在引入复数时,首先不能免俗地做了其他科普书差不多的工作:-1的开平方根是复数的定义blabla;然后,他将议题转入更接近上游本质的、但也许常人可能也会想过的问题:形式与实在的关系。
不是说『-1的开平方根』是复数单位i吗?但似乎有两个数的平方等于-1啊(也即i与-i),到底哪个才是正宗的『复数单位』?如果说i是嘛,那么凭什么-i不是?给我讲清楚啊——对吧?我猜,每个人在其漫长的人生中,都曾经想问过这类问题吧:『为嘛数变量用abc、角变量用αβγ』『为嘛求导符用的是一个点』『为嘛积分符像条蛇』『为嘛积分式里有个d』诸如此类。这些问题并不无聊也不白痴,只是常人很难给出有意义的回答而已;它们中的每个往往都蕴含着16世纪数学大师们的智慧精华。当然,本书没有解答所有这类奇离古怪的问题(这不是《十万个为什么》)。在本书里,作者做的是教授课间做的那种事——随便跟好奇的学生聊聊天,证明过程少说了个『在这个条件下』待会再补上。上面提到的『i与-i哪个才是复数单位』这个议题,这段简短的讨论,同时也扮演了下一章《证明》的引子这个角色。
进度到第三章《证明》结束之后,对读者而言,或许就只剩一个小时的阅读时间而已了。后面的章节,议题越来越抽象(空间、维度、距离、无穷等),正要抵达最有趣的部分(集合论)时,突然话锋一转,谈起了与抽象几乎相对的另一端:计算理论与数论;然后,本书的主体竟在此突然收官。看来,作者多多少少还保持了清醒,未过度狂热,未打算将每个有趣的命题都灌到读者脑里。在我看来,那种『X猫X气三千问』的大杂烩式科普其实是很不人道的。大家和我一样都读过一遍又一遍的七桥问题与雪花曲线,没必要再来一次了。这些老生常谈的话题,在本书里各只占了一页的篇幅。太好了。
篇4:《数学之美》读书笔记
读完本书,第一感受:次奥!原来数学如此多的原理模型概念都可以用去解决各种IT技术问题啊。特别是语言识别和自然语言处理这类问题完全就是建立在数学原理之上的。总之,这本书就是用非常深入浅出的话去说明如何用数学方法去解决计算机的各种工程问题。这是一本讲道,而不是术的书。 要完全读懂这本书,我觉得至少需要掌握这三门课:高等数学,离散数学,还有概率论与数理统计。唉..我当初数学学得太水了,还挂了高数啊...有好的概念没看懂,以后有时间在好好看吧。如果想搞计算机研究的话,数学基础必不可少,别总在抱怨各种数学课上的东西一辈子都用不着。
发现作者对人类自然发展的认识非常深,其从语言,文字,数学的产生发展,信息的传播记录得出了这个结论:信息的产生传播接收反馈,和今天最先进的通信在原理上没有任何差别。就算是科学上最高深的技术,那也是模拟我们生活中的一些基本原理。
我们今天使用的十进制,就是我们扳手指扳了十次,就进一次位。而玛雅文明他们数完了手指和脚指才开始进位,所以他们用的是二十进制。实际上阿拉伯数字是古印度人发明的,只是欧洲人不知道这些数字的真正发明人是古印度,而就把这功劳该给了“二道贩子”阿拉伯人。
语言的数学本质
任何一种语言都是一种编码方式,比如我们把一个要表达的意思,通过语言一句话表达出来,就是利用编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字,听者则用这语言的解码方法获得说话者要表达的信息。
自然语言处理模型
计算机是很笨的,他们唯一会做的就是计算。自然语言处理在数学模型上是基于统计的,说一个句子是否合理,就看看他出现的可能性大小如何,可能性就是用概率来衡量,比如一个句子,出现的概率为1/10^10,另一个句子出现的概率为1/10^20,那么我们就可以说第一个句子比第二个句子更加合理。当然这要求有足够的观测值,他有大数定理在背后支持。
最早的中文分词方法
这句话:“同学们呆在图书馆看书”,如何分词?应该是这样:同学们/呆在/图书馆/看书.最先的方法是北航一老师提出的查字典方法,就是把句子从左道右扫描一遍,遇到字典里面出现的词就标示出来,遇到复合词如(北京大学)就按照最长的分词匹配,遇到不认识的字串就分割成单个字,于是中文的分词就完成了。但是这只能解决78成的分词问题,但是“像发展中国家”这种短语它是分不出来的。后来大陆用基于统计语言模型方法才解决了。
隐含马可夫模型(没这么看懂)
一直被认为是解决打多数自然语言处理问题最为快速有效的方法,大致意思是:随机过程中各个状态的概率分布,只与他的前一个状态有关。比如对于天气预报,我们只假设今天的气温只与昨天有关而与前天没有关系,这虽然不完美,但是以前不好解决的问题都可以给出近视值了。
一个让我印象深刻的观点:
小学生和中学生其实没有必要花那么多时间去读书,其觉得最主要的是孩子们的社会经验,生活能力,和那时候树立起来的志向,这将帮助他们一生。而中学生阶段花很多时间比同伴多读的课程,在大学以后可以用非常短的时间就可以读完。因为在大学阶段,人的理解能力要强很多,比如中学要花500小时才能搞明白的内容,大学可能花100小时就搞定了。学习和教育是一个人一辈子的事情,很多中学成绩好的人进入大学后有些就表现不太好了,要有不断学习的动力才行。
余弦定理和新闻分类
我在新浪干过一年多新闻,这篇认真看了一篇,很吃惊原理cos x与新闻分析也有关系啊。google的新闻服务是由计算机自动整理分类的。而传统的媒体如门户网站是让编辑读懂新闻,找到主题,再分类分级别的,真苦逼啊...计算机自动分类原理是这样:如一篇新闻有10000个词,组成一个万维向量,这个向量就代表这篇新闻,可以通过某种算法表达这个新闻主题的类型,如果两个向量的方向一致,说明对应的新闻用词一致,方向可用夹角表示,夹角可用余弦定理表示,所以当夹角的余弦值接近于1时,这两篇新闻就可以归为一类了。
没看懂的东西:
布尔代数:布尔代数把逻辑学和数学合二为一,给了我们一个全新的视角看世界...
网络爬虫的基本原来是利用了图论的广度优先搜索和深度优先搜索...
搜索引擎的结果排名用了稀疏矩阵的计算...
地图最基本的计算是利用了有限状态机和图论的最短路径...
密码学原理,最大熵模型,拼音输入法的数学模型,布隆过滤器,贝叶斯网络等等...
任何事物都有它的发展规律,当我们认识了规律后,应当在生活工作中遵循规律,希望大家透过IT规律的认识,可 以举一反三的总结学习认识规律,这样有助于自己的境界提升一个层次。
任何问题总是能找到相应的准确数学模型,一个正确的数学模型在形式上应当是简单的,一个好的方法在形式上应当也是简单的。简单才是美。
篇5:《数学之美》读书笔记
最近看了这本《数学之美》,不得不感叹一句,可惜早已身不在起点。
我读书的时候,数学成绩一直都很好,虽然离开学校已经10多年,自觉当初的知识还是记得很多,6~7年前再考线性代数和概率论,还是得到了很高的分数。不过我也和大部分人一样,觉得数学没有太多用处,特别是高中和大学里面学的,那些三角函数,向量,大数定律,解析几何,除了在考试的题目里面用一下,平时又有什么地方可以用呢?
看了《数学之美》,惊叹于数学的浩瀚和简单,说它浩瀚,是因为它的分支涵盖了科学的方方面面,是所有科学的理论基础,说它简单,无论多复杂的问题,最后总结的数学公式都简单到只有区区几个符号和字母。
这本书介绍数学理论在互联网上的运用,平时我们在使用互联网搜索或者翻译功能的时候,时常会感叹电脑对自己的了解和它的聪明,其实背后的原理就是一个个精美的算法和大量数据的训练。那些或者熟悉或者陌生的数学知识(联合概率分布,维特比算法,期望最大化,贝叶斯网络,隐形马尔可夫链,余弦定律,etc),一步步构建了我们现在所赖以生存的网上世界。
之所以觉得自己早已身不在起点,是因为上面这些数学知识,早已经不在我的知识框架之内,就算曾经学过,也不过是囫囵吞枣一样的强记硬背,没有领会过其中的真正意义。而今天想重头在来学一次,其实已经不可能了。且不说要花费多少的精力和时间,还需要的是领悟力。而这一些,已经不是我可以简单付出的。
不像物理、化学需要复杂的实验来验证,很多数学的证明,几乎只要有一颗聪明的头脑和无数的草稿纸,可是光是这颗聪明的头脑,就可以阻拦掉很多人。有人说多读书就会聪明,我不否认,书本的确会提供很多知识,可是不同的人读同一本书也会有不同的收货,这就限制于每个人的知识框架和认知水平。就如一个数学功底好过我的人,看这本书,就会更容易理解里面的公式和推导出这些公式的其他运用点,而我,只能站在数学的门口,感叹一句,它真的好美吧。
当然,我暂时无法在实际生活中运用这些数学公式,可是书中提到的一些方法论,还是很有帮助的
1)一个产业的颠覆或者创新,大部分来自于外部的力量,比如用统计学原理做自然语言处理。
2)基础知识和基础数据是很重要性,只有足够多和足够广的数据,才可以提供有效的分析,和验证分析方法的好坏。
3)先帮用户解决80%的问题,在慢慢解决剩下的20%的问题;
4)不要等一个东西完美了,才发布;
5)简单是美,坚持选择简单的做法,这样会容易解释每一个步骤和方法背后的道理,也便于查错。
6)正确的模型也可能受噪音干扰,而显得不准确;这时不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源,从根本上修正它。
7)一个人想要在自己的领域做到世界一流,他的周围必须有非常多的一流人物。
篇6:《数学之美》读书笔记
《数学之美》是一本领域相关的数学概念书,生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识,可以作为数据挖掘、文本检索的入门普及书。另外,就像作者吴军老师提到的,关键是要从中学到道----解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。
下面记录一下自己读这本书的一些感想:
第一章《文字和语言vs数字和信息》:文字和语言中天然蕴藏着一些数学思想,数学可能不仅仅的是一门非常理科的知识,也是一种艺术。另外,遇到一个复杂的问题时,可能生活中的一些常识,一些简单的思想会给你带来解决问题的灵感。
第二章《自然语言处理----从规则到统计》:试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程,找到统计的方法经历了20多年,非常庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发现真理的过程中是充满坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃,真正的成长是在解决问题的过程中。事情不可能一帆风顺的,这是自然界的普遍真理吧!
第三章《统计语言模型》:自然语言的处理找到了一种合适的方法---基于统计的模型,概率论的知识开始发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简单实用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用,现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话:数学的魅力就在于将复杂的问题简单化。
第四章《谈谈中文分词》:中文分词是将一句话分成一些词,这是以后进一步处理的基础。从开始的查字典到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对具体的问题,提出针对该问题最好的方法。没有什么是绝对的,掌握其中的道才是核心。
第五章《隐马尔科夫模型》:隐马尔科夫模型和概率论里面的马尔科夫链相似,就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型,就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型,没有实际实现过,所以感觉好陌生,只是知道了些概率论讲过的原理而已。
第六章《信息的度量和作用》:信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的,要学会借鉴其他知识。
第七章《贾里尼克和现代语言处理》:贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。贾里克尼教授一生专注学习,最后在办公桌前过世了。读了这章我总结出的一句话是“思想决定一个人的高度”。
在这章中对于少年时的教育,以下几点值得借鉴:
1、少年时期其实没有必要花那么多时间读书,他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。
2、中学时花大量时间学会的内容,在大学用非常短的时间就可以读完,因为在大学阶段,人的理解力要强很多。
3、学习(和教育)是一个人一辈子的过程。
4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。
第八章《简单之美----布尔代数和搜索引擎的索引》:布尔是19世纪英国的一位中学教师,但他的公开身份是啤酒商,提出好的思想的人不一定是大师。简单的建立索引可以根据一个词是否在一个网页中出现而设置为0和1,为了适应索引访问的速度、附加的信息、更新要快速,改进了索引的建立,但原理上依然简单,等价于布尔运算。牛顿的一句话“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的”。做好搜索,最基本的要求是每天分析10-20个不好的搜索结果,积累一段时间才有感觉。有时候,学习、处理问题,可以从不好的方面入手,效果可能更好。
第九章《图论和网络爬虫》:图的遍历分为“广度优先搜索(Breadth-FirstSearch,简称BFS)”和“深度优先搜索(Depth-FirstSearch,简称DFS)。互联网上有几百亿的网页,需要大量的服务器用来下载网页,需要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简单的网页,没必要下载。还需要存储一张哈希表来记录哪些网页已经存储过(如果记录每个网页的url,数量太多,这里可以用后面提到的信息指纹,只需要一个很多位的数字即可),避免重复下载。另外,在图论出现的很长一段时间里,实际需求的图只有几千个节点,那时图的遍历很简单,人们都没有怎么专门研究这个问题,随着互联网的出现,图的遍历一下子有了用武之地,很多数学方法就是这样,看上去没有什么用途,等到具体的应用出来了一下子开始派上大用场了,这可能就是世界上很多人毕生研究数学的原因吧。一个系统看似整体简单,但里面的每个东西都可能是一个复杂的东西,需要很好的设计。
第十章《PageRank----Google的民主表决式网页排名技术》:搜索返回了成千上万条结果,如何为搜索结果排名?这取决与两组信息:关于网页的质量信息以及这个查询和每个网页的相关性信息。PageRank算法来衡量一个网页的质量,该算法的思想是如果一个网页被很多其他网页所链接,说明它收到普遍的承认和信赖,那么它的排名就高。谷歌的创始人佩奇和布林提出了该算法并用迭代的方法解决了这个问题。PageRank在Google所有的算法中依然是至关重要的。该算法并不难,可是当时只有佩奇和布林想到了,为什么呢?
第十一章《如何确定网页和查询的相关性》:构建一个搜索引擎的四个方面:如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。搜索关键词权重的科学度量TF―IDF,TF衡量一个词在一个网页中的权重,即词频。IDF衡量一个词本身的权重,对主题的预测能力。一个查询和该网页的相关性公式由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。看似复杂的搜索引擎,里面的原理竟是这么简单!
第十二章《地图和本地搜索的最基本技术――有限状态机和动态规划》:地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时,希望进行模糊匹配,提出了一种基于概率的有限状态机。通用的有限状态机的程序不是很好写,要求很高,建议直接采用开源的代码。图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。有限状态机和动态规划问题需要看相关的算法讲解,才能深入理解,目前对其并未完全理解。
第十三章《GoogleAK-47的设计者――阿米特・辛格博士》:辛格坚持选择简单方案的一个原因是容易解释每一个步骤和方法背后的道理,这样不仅便于出了问题时查错,而且容易找到今后改进的目标。辛格要求对于搜索质量的改进方法都要能说清楚理由,说不清楚理由的改进即使看上去有效也不会采用,因为这样将来可能是个隐患。辛格非常鼓励年轻人要不怕失败,大胆尝试。遵循简单的哲学。
第十四章《余弦定理和新闻的分类》:将新闻根据词的TF-IDF值组成新闻的特征向量,然后根据向量之间的余弦距离衡量两个特征之间的相似度,将新闻自动聚类。另外根据词的不同位置,权重应该不同,比如标题的词权重明显应该大点。大数据量的余弦计算也要考虑很多简化算法。
第十五章《矩阵运算和文本处理中的两个分类问题》:将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值SVD分解,可以得到隐含在其中的一些信息。计算余弦相似度的一次迭代时间和奇异值分解的时间复杂度在一个数量级,但计算余弦相似度需要多次迭代。另外,奇异值分解的一个问题是存储量大,而余弦定理的聚类则不需要。奇异值分解得到的结果略显粗糙,实际工作中一般先进行奇异值分解得到粗分类结果,在利用余弦计算得到比较精确地结果。我觉得这章讲的SVD有些地方不是很清楚,已向吴军老师请教了,等待回信。
第十六章《信息指纹及其应用》:信息指纹可以作为信息的唯一标识。有很多信息指纹的产生方法,互联网加密要使用基于加密的伪随机数产生器,常用的算法有MD5或者SHA-1等标准。信息指纹可以用来判定集合相同或基本相同。YouTobe就用信息指纹来反盗版。128位的指纹,1.8*10^19次才可能重复一次,所以重复的可能性几乎为0。判定集合是否相同,从简单的逐个比对到利用信息指纹,复杂度降低了很多很多。启发我们有时候要用变通的思想来解决问题。
第十七章《由电视剧《暗算》所想到的――谈谈密码学的数学原理》:RSA加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。该算法里面蕴含着简单但不好理解的数学思想。信息论在密码设计中的应用:当密码之间分布均匀并且统计独立时,提供的信息最少。均匀分布使得敌人无从统计,而统计独立能保证敌人即使知道了加密算法,也不能破译另一段密码。
第十八章《闪光的不一定是金子――谈谈搜索引擎反作弊问题》:把搜索反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源出发,增强排序算法的抗干扰能力;过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消除。作弊者的方法不可能是随机的,且不可能一天换一种方法,及作弊是时间相关的。因此在搜集一段时间的作弊信息后,就可以将作弊者抓出来,还原原有的排名。一般作弊都是针对市场份额较大的搜索引擎做的,因此,一个小的搜索引擎作弊少,并不一定是它的反作弊技术好,而是到它那里作弊的人少。
第十九章《谈谈数学模型的重要性》:早期的行星运行模型用大圆套小圆的方法,精确地计算出了所有行星运行的轨迹。但其实模型就是简单的椭圆而已。一个正确的数学模型应该在形式上是简单的;一个正确的模型可能开始还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去;大量准备的数据对研发很重要;正确的模型可能受到噪声干扰,而显得不准确,这是不应该用一种凑合的修正方法来弥补它,要找到噪声的根源,这也许能通往重大的发现。
第二十章《不要把鸡蛋放在一个篮子里――谈谈最大熵模型》:对一个随机事件预测时,当各种情况概率相等时,信息熵达到最大,不确定性最大,预测的风险最小。最大熵模型的训练非常复杂,需要时查看资料做进一步的理解。
第二十一章《拼音输入法的数学原理》:输入法经历了以自然音节编码,到偏旁笔画拆字输入,再回归自然音节输入的过程。任何事物的发展,螺旋式的回归不是简单的重复,而是一种升华。输入法的速度取决于编码的场地*寻找这个键的时间。传统的双拼,记住编码太难,寻找每个键的时间太长,并且增加了编码上的歧义。根据香农第一定理可以计算理论上每个汉字的平均最短码长。全拼不仅编码平均长度较少,而且根据上下文的语言模型可以很好的解决歧义问题。利用统计语言模型可是实现拼音转汉字的有效算法,而且可以转换为动态规划求最短路径问题。如今各家输入法的效率基本在一个量级,进一步提升的关键就在于建立更好的语言模型。可以根据每个用户建立个性化的语言模型。输入的过程本身就是人和计算机的通信,好的输入法会自觉或者不自觉的的遵循通信的数学模型。要做出最有效的输入法,应该自觉使用信息论做指导。
第二十二章《自然语言处理的教父马库斯和他的优秀弟子们》:将自然语言处理从基于规则到基于统计,贡献最大的两个人,一个是前面介绍的贾里尼克教授,他是一个开创性任务;另一个是将这个方法发扬光大的米奇・马库斯。马库斯的贡献在于建立了造福全世界研究者的宾夕法尼亚大学LDC语料库以及他的众多优秀弟子。马库斯的影响力很大程度上是靠他的弟子传播出去的。马库斯教授有很多值得钦佩的地方:给予他的博士研究生自己感兴趣的课题的自由,高屋建瓴,给学生关键的指导;宽松的管理方式,培养各有特点的年轻学者;是一个有着远见卓识的管理者。他的学生为人做事风格迥异,但都年轻有为,例如追求完美的迈克尔・柯林斯和寻求简单美的艾克尔・布莱尔。大师之所以能成为大师,肯定有着一些优秀的品质和追求。
第二十三章《布隆过滤器》:判断一个元素是否在一个集合当中时,用到了布隆过滤器,存储量小而且计算快速。其原理是:建立一个很长的二进制,将每个元素通过随机数产生器产生一些信息指纹,再将这些信息指纹映射到一些自然数上,最后在建立的那个很长的二进制上把这些自然数的位置都置为1。布隆过滤器的.不足之处是它可能把不在集合中的元素错判成集合中的元素,但在某些条件下这个概率是很小的,补救措施是可以建立一个小的白名单,存储那些可能误判的元素。布隆过滤器背后的数学原理在于完全随机的数字其冲突的可能性很小,可以用很少的空间存储大量的信息,并且由于只进行简单的算术运算,因此速度非常快。《编程珠玑》中第一章的那个例子就是布隆过滤器的思想。开阔思维,寻找更好更简单的方法。
第二十四章《马尔科夫链的扩展――贝叶斯网络》:贝叶斯网络是马尔科夫链的扩展,由简单的线性链式关系扩展为网络的关系,但贝叶斯网络仍然假设每一个状态只与它直接相连的状态相关。确定贝叶斯网络的拓扑结构和各个状态之间相关的概率也需要训练。在词分类中,可以建立文章、主题和关键词的贝叶斯网络,用来得到词的分类。贝叶斯网络的训练包括确定拓扑结构和转移概率,比较复杂,后者可以参考最大熵训练的方法。贝叶斯网络导出的模型是非常复杂的。
第二十五章《条件随机场和句法分析》:句法分析是分析出一个句子的句子结构,对于不规则的句子,对其进行深入的分析是很复杂的,而浅层的句法分析在很多时候已经可以满足要求了。条件随机场就是进行浅层句法分析的有效的数学模型。条件随机场与贝叶斯网络很像,不用之处在于,条件随机场是无向图,而贝叶斯网络是有向图。条件随机场的训练很复杂,简化之后可以参考最大熵训练的方法。对于条件随机场的详细参数及原理还不理解。
第二十六章《维特比和他的维特比算法》:维特比算法是一个动态规划算法,凡是使用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采用逐步渐进的方法,计算到每步的最短距离,到下步的最短距离只用接着本步的计算即可,相比穷举法,大大缩短了计算的时间,并且基本可以实现实时的输出,这看似简单,但在当时确是很了不起的。维特比并不满足停留在算法本身,他将算法推广出去,并应用到了实际中,创立了高通公司,成为了世界上第二富有的数学家。高通公司在第二代移动通信中并不占很强的市场地位,而其利用CDMA技术霸占了3G的市场,可见远见的洞察力是多么的重要。
第二十七章《再谈文本分类问题――期望最大化算法》:该章讲的其实就是K均值聚类问题,设置原始聚类中心,然后不断迭代,直至收敛,将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法(EM)。首先,根据现有的模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程,或E过程;接下来,重新计算模型参数,以最大化期望值,这个过程称为最大化的过程,或M过程。优化的目标函数如果是个凸函数,则一定有全局最优解,若不是凸函数,则可能找到的是局部最优解。在以后的一些问题求解过程中,应该考虑其是否是EM问题,也可以考虑参考这种思想,不断迭代以优化目标的过程。
第二十八章《逻辑回归和搜索广告》:雅虎和百度的竞价排名广告并不比谷歌的根据广告的预估点击率来客观的推送广告收入多。点击预估率有很多影响因素,一种有效的方法是逻辑回归模型,逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相似。同样不是很理解其具体内涵。
第二十九章《各个击破和Google云计算的基础》:分而治之,各个击破是一个很好的方法,Google开发的MapReduce算法就应用了该方法。将一个大任务分成几个小任务,这个过程叫Map,将小任务的结果合并成最终结果,这个过程叫Reduce,该过程如何调度、协调就是工程上比较复杂的事情了。可见大量用到的、真正有用的方法往往简单而又朴实。
附录《计算复杂度》:计算机中复杂度是以O来表示的,如果一个算法的计算量不超过N的多项式函数,则称算法为多项式函数复杂度的(P问题),是可以计算的。若比N的多项式函数还高,则是非多项式问题,实际上是不可计算的。非多项式问题中一种非确定的多项式问题(简称NP),是科学家研究的焦点,因为现实中好多问题都是NP问题。另外还有NP-Complete问题(NP问题可以在多项式时间内规约到该问题)和NP-Hard问题,对于这两种问题,需要简化找到近似解。
整体上,《数学之美》这本书让我了解了很多文本处理,数据挖掘相关的知识,学到了很多。其中,简单美以及一些科学家的大师风范让我印象深刻!书中提到的一些思想(即道)让我受益匪浅!
篇7:《浪潮之巅》读书笔记感触
近日断断续续阅读完此书,由于时间跨度较大,相较前面的部分已印象淡薄,但总体来说,给我的感觉还是挺深刻的。
此书以近些年在IT领域高速发展的几个大型跨国企业:AT&T、IBM、Microsoft、Intel、Yahoo、Mac、Cisco、Google、Facebook为范本,简单叙述了各个企业的成长历史及发展历程,透过其发展壮大的过程,揭示了其在各个领域真正取得飞跃性突破的本质:一个企业的要真正寻求长远的发展,必须要发掘出自己独特的盈利模式,必须具有创新的精神、长远的眼光、战略性思维,必须能够不断的适应或引领社会的发展。真正的优秀企业应该是改变一个时代甚至是创造一个时代的新锐先锋!
“对任何人来说,时间是最大的财富,每个人都应该把他的时间投入到最有意义、最有影响的地方去。经过多年的学习、思考和实践,我认定这样一个规律,就是:科技的发展不是均匀的,而是以浪潮的形式出现。每一个人都应该看清楚浪潮,赶上浪潮,如此,便不枉此生。”
的确,身为在这个时代生活的IT从业人员,我们无法逃避生存的现实,在这样的浪潮之中被裹挟前行。如果没有清醒的认识,没有果断的抉择,我们只能被潮流所左右。唯有充分的认识自我,看清形势,准确的把握机遇,才能在这个时代的潮头做一个勇敢而不败的弄潮儿,创立一番惊天伟业!
篇8:《浪潮之巅》读书笔记感触
浪潮之巅是最近我看到的最好看的一本书。相信只要是IT人,看这本都会引起很大的共鸣。这本书无疑涵盖了很多内容,各个著名公司的变迁,通信、互联网技术的发展历程,各种新的技术概念,金融,等等。不同职位,不同追求的人都会有所收益,但收益的东西会截然不同。我作为一名普通的技术人员,从我的视角说说自己的感受吧。
无论是何种变迁,了解公司或技术的前世今生都是有益无弊的。存在都是合理的,为什么会存在呢?比如一种技术,了解了它目前的概念、框架、应用等等。但是它为什么会出现而流行呢。因为前面的技术碰到了无法逾越的障碍,或者说社会环境变了。是的,归根到底,多么高深的技术最后都是为人类服务的。人类的需求是什么?就是你我这些常人的需求。作者在这方面真正做到了深入浅出,让人对很多技术概念有了通俗的理解,更关键的是,虽然通俗但是专业。
一个小小的螺丝钉,梦想就是找对行业,找对公司。如何找到,大的方面从这本书里能够学到不少,特别是从公司和技术发展领悟到很多。正如书中所说,人这一生,能赶上一次浪潮,跟上浪潮,就很幸运了。
这本书还讲了很多与技术完全无关的东西——金融,特别是风险投资。一个个鲜活的例子尤其是google,让人对风险投资有了很生动的理解。一个技术人员虽然不做金融,但是还是要知道些基本知识的,毕竟谁也不想让自己的辛苦钱稀里糊涂的打了水漂。记得以前工作的公司曾有财报123的培训。虽然现在已经忘了大半,但想来还是有益的。
整本书,讲述的技术是如此的言简意赅,通俗易懂。没有华丽的辞藻,厚厚的一本书,却一点儿也不妨碍让人看的欲罢不能。作者显然是技术人员里罕见的语言表达能力超强的人,让人佩服。
尽信书不如无书。书里很多东西总结的不错。然而对于将来的趋势,就不一定了。一切都在变化,谁也不能预言将来。每个人还是要独立的思考问题。
篇9:《浪潮之巅》读书笔记感触
这本书是一本科技史的书籍,对于这本书的接触式在去年暑假八月份时,期间在家里用手机看微博,发现薛蛮子老师的一条微博是关于这本书的一个评论,我对于这个记得还是很清楚的。原意是这样的,这本书在豆瓣读书的评分已经在科技互联网分类中已经是首位了。
对于这本书的好奇,我就上亚马逊找这本书。当时我是想买纸质版本,但是当时是在乡下,图书购买不是很方便。所以后来我在电脑上找一下原来我找到了,我的电脑太神奇了,功能真的很强大。
我要谢谢我的电脑,找到了电子版本的,pdf版本的,我就好好地阅读了一下了。
这本书记录了一大批公司的兴衰史,由于我学的是文科类专业,所以对于历史也是兴趣很浓,对于科技历史的兴趣也是一步步培养当中。
来说说作者本人吧。吴军,以前在google中国公司担任工程师一职,平时对于科技行业有很深入的认识。后来这些都是在google中国黑板报上发表了。当时李开复就鼓励吴军可以把这些集成一个集子写成书,形成一个系统的认识。后来在这本书在中国人民邮电出版社出版了。以前的pdf版本在网络上传的很开。
后来吴军来到了腾讯公司担任副总裁一职。
首先写的公司是美国电报电话公司,惠普,AT&T、IBM、Microsoft、Intel、Yahoo、Mac、Cisco、Google、Facebook等公司的兴衰。
篇10:数学之美读后感
人们发现真理的形式上从来都是简单的,而不是复杂和含混的。
——牛顿
自小就学数学的我,并不觉得它是美好的。于我而言,数学就像紧箍咒一样,不能提,一提。就头疼。
而看了吴军博士所写的《数学之美》后,我对数学的感觉,从以前的被动获取和勉强学习,变成了强烈热爱和主动积极的学习。这原因就在于我发现了它的价值,它的一枝独秀,不可或缺的地位,数学的博大精深和对其相关的各类事业的发展的价值已使我深深陶醉其中。这本书中有很多复杂且长的公式,但这并不妨碍大众的阅读,因为它并非在于让你了解更多IT领域的知识,而是用了大量篇幅介绍各个领域的典故,让我们感受数学思维。这就像李欣教授所说:“成为一个领域的大师有其偶然性,但更有其必然性。其必然性就是大师们的思维方法。”
英国哲学家弗朗西斯·培根在《论美德》这篇文章中讲:“美德就如同华贵的宝石,在朴素的衬托下最显华丽。”数学的美妙,也恰恰在于一个好的思维,好的方法。
在《数学之美》十四章,我被它的标题吸引到了。“余弦定理和新闻的分类”,这俩看似八竿子打不着。却有着紧密的联系。可以说,新闻的分类很大程度上依赖的是余弦定理。我们都知道,计算机处理一个问题是让他去算,而不是像人类一样理解了它,再去解决。而科学家们遇到这个问题,却用了另一种思维,他们把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性。稍详细一些就是:对于一篇新闻中的所有实词。计算出它们的TF-IDF值,再把这些值按照其在对应词汇表的位置依次排列就得到一个向量,这即新闻的特征向量。这时,就可以通过计算两个向量夹角来判断对应的新闻主题的接近程度,这也就要用到余弦定理了。我在必修五数学书上学到余弦定理时,很难想象它可以用来对新闻进行分类。在这里我又一次看到了数学工具的用途。
在书中,我也了解到了数学的发展实际上是不断的抽象和概括的过程。这些抽象了的方法看似离生活越来越远,但他们最终能找到应用的地方,布尔代数便是如此。
布尔代数的简单不能再简单了。运算的元素只有两个0和1,基本的运算只有“与”、“或”和“非”。几乎就是我们现在所学的“判断命题真假”。在布尔代数提出后的80多年里,他确实没有什么像样的应用。直到1938年香农在他的硕士论文中指出,布尔代数来实现开关电路。才使得布尔代数成为数字电路的基础。正是依靠这一点,人类用一个个开关电路最终“搭出”电子计算机。
这些,都能体现作者“简单即是美”的思想。他在书中也写道:“数学的精彩之处就在于简单的模型可以干大事。”这些,也都是我从未感受到过的。并且,在这本书中,作者也用了不少篇幅来介绍通信领域的世界级专家,让我对真正的世界级学者有更多的了解和理解,比如贾里尼克,Google AK-47的设计者——阿米特·辛格博士,自然语言处理的教父米奇·马库斯等等。
爱因斯坦说过:“从希腊哲学到现代物理学的整个科学史中。不断有人力图地表面上极为复杂的自然现象归结为几个简单的基本概念和关系,这就是整个自然哲学的基本原理。”这本书把数学在IT领域的美丽予以了精彩表达,我也知道,把一件复杂的事用简单的语言表达出来,并非易事,这应该也是各界人士都对这本书予以好评的原因吧。
当然,我也明白,欣赏美不是终极目的,更值得我们追求的是创造美境界。
还有,希望未来的自己,无论生活好与坏,都能少一点浮躁,多一点踏实和对自然科学本质的好奇求知。
篇11:数学之美读后感
数学之美,源自数学的概括与抽象。而数学的抽象,又恰恰是许多人难以接受数学之梗阻。所以,一般来说,能够欣赏到数学之美,必有一定的数学基础。不过,吴军的《数学之美》,语言通俗,略沉心境,顺利读懂其要义,应该是不难的事。有这种说法,真正的大师,能够将复杂的东西,通俗表达。这话我不尽信,但也确实佩服那些把数学理论通俗易懂、形象生动描述的专家,读了《数学之美》,觉得吴军博士不错。
人类发明了许许多多的语言,如自然语言(包括各国各民族的语言)、音乐、绘画等,数学也是一种语言。读懂各种语言,需要下一定功夫,只是有些语言本身比较通俗,功夫不用太深,但像数学这样的语言,数字化,符号化,抽象化,逻辑化,难言大众望而生畏,也着实不少人望而却步。如果我们的数学老师们,能够将这些“化”都“简化”,或者尽量简化些,那是不是有更多的人有迎难而上的勇气呢?也许吧!然而,毕竟数学除了作为工具性角色,还要培养和训练人的思维,一味地简化和通俗,那种逻辑思维的特征要素,失之亦可惜呀。前些日,读了保罗.洛克哈特(美国)的《度量:一首献给数学的情歌》,其对形状和运动的度量叙述,非常通俗,给人启发,但对我这数学背景出身的人来说,因思想深处固守那份对抽象性和逻辑性的呆痴,而总感觉其味不够,犹如爱好辣味的江西人,怕不辣二无味。
五世纪著名数学评论家普洛克拉斯说:“哪里有数,那里就有美”。我国著名数学家华罗庚说:“就数学本身而言,是壮丽多彩、千姿百态、引人入胜的……认为数学枯燥乏味的人,只是看到了数学的严谨性,而没有体会出数学的内在美。”数学之美表现丰富,如美的形式符号、美的公式、美的曲线、美的曲面、美的证明、美的方法、美的理论等。从内容来说,数学之美有可分为结构美、语言美与方法美,数学也有简洁之美、对称之美、和谐之美。罗素说,数学的美,“是一种冷而严肃的美”。所以,欣赏数学的美,是需要一定能力和技巧的。
数学的应用,也是数学美的特征。科学发展到现在,数学应用无处不在,数学应用的方法很多。一个数学的抽象,包含了无穷的客观现实。解决问题,尽量方法简单,能简不繁,是一种原则。数学应用之美,就在于简单,在于巧妙,在于效奇。
作者:邓毅雄
篇12:数学之美读后感
《数学之美》,读来确实有感:数学美。
――邓毅雄
吴军博士的《数学之美》
读来确实有感:数学美。
――邓毅雄
这本书,主要涉及自然语言处理、网络搜索引擎等问题,介绍解决问题的数学方法,这些方法基本不属高大上,用到的数学知识并不复杂,有的甚至属中等数学,如余弦定理。像较好解决复杂的自然语言识别与翻译的统计方法,只是条件概率与马尔可夫链的应用;解决网页排名的PageRank算法,其核心是数学的n维向量和数值计算中的迭代法;密码学中的公开密钥方法,仅仅是较大素数的乘、除运算而已,等等。复杂的现实问题,简单的数学方法,彰显数学之韵味和数学之美。
篇13:《数学之美》读后感
《数学之美》读后感
确切的来说,《数学之美》并不是一本书,它是谷歌黑板报中的一系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用,每一篇文章都不长,但小中见大,从看似高深的高科技中用通俗易懂的案例展示了数学之美,深深的吸引了我,
这一系列文章的作者是google公司的科学家吴军。他毕业于清华大学计算机系(本科)和电子工程系(硕士),并于1993-在清华任讲师。他于19起在美国约翰霍普金斯大学攻读博士,并于XX年获得计算机科学博士学位。在清华和约翰霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和XX年eurospeech的最佳论文奖。
吴军博士于XX年加入google公司,现任google研究院资深研究员,
到google不久,他和三个同事们开创了网络搜索反作弊的研究领域,并因此获得工程奖。XX年,他和两个同事共同成立了中日韩文搜索部门。吴军博士是当前google中日韩文搜索算法的主要设计者。在google其间,他领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了公司首席执行官埃里克.施密特的高度评价。吴军博士在国内外发表过数十篇论文并获得和申请了近十项美国和国际专利。他于XX年起,当选为约翰霍普金斯大学计算机系董事会董事。
正是他在信息检索与自然语言处理领域中的一系列工作,使他讲述了我所看到的内容-数学之美。
看了数学之美,立即联想到了金庸小说中的武林高人,总是把一套大多数人都会的入门功夫使得威力无比,击溃众多敌者。东西放在那,它的威力如何,并键在于使用者,武术如此,数学同样如此。
于我而言,语音视别是一类高科技,作为非专业人土,深觉高奥。但看完数学之美之后,顿感惊诧,原来如此深奥东西的`解决方法自己也学过,并且理工科读过大学的人都学过,那就是统计学中的条件概率p(a/b),即b事件发生条件下a事件发生的概率。
如果s表示一连串特定顺序排列的词w1,w2,…,wn,换句话说,s可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道s在文本中出现的可能性,也就是数学上所说的s的概率用p(s)来表示。利用条件概率的公式,
篇14: 《数学之美》读后感
前一阵子因兴趣研究CMUSphinx这套库的应用不得要领,就去查看了下一些语音识别的基本原理的文章,偶然碰到了数学之美。其实浪潮之巅也是因此开始看的、结果先一步看完了,毕竟一本历史书,一本介绍数学和语言处理的,难度不同
说实话,因为初中高中荒废了太多时间,我的英文和数学基础比较差,我大学的数学都是勉强修过的。一直以来数学对我是一个很恐怖的学科,也不知道为什么计算机专业对数学要求比较高。我个人就是数学分数很低,但是专业课学的还不错,唯一好点的数学科目就是离散数学吧,另外的工科数学分析和高等代数都是惨不忍睹的
看完这本书后,我发现我还真是低估了数学的作用,一个复杂的语言识别过程,用统计语言模型竟然用那么简单的数学模型就解决了,这对我的冲击很大。另一个对我影响比较大的就是余弦定理和新闻的分类。以前那些各种三角函数的变换、三角函数,各种向量,各种空间图形在我印象中就只能用于画设计图,或者搞空间物理化学等基础学科的应用上,想着“这种东西和计算机编程有什么关系?要计算角度,库里不都提供了吗?”,哪成想到改变一下思路,改变一下方法,就简单的把那么复杂的分裂问题给解决了。现在想想我当初想法还真是幼稚啊,可惜覆水难收,过去的时间已经回不来了,但至少我现在明白了数学的重要性,总能想办法弥补的。
不得不说国内的教科书还真是太死板了。很多书上,先不说没讲应用领域和这个能干吗,有些教科书连推导过程也没说明白。像我大学时候的那几本高代高数的教科书,在某一步关键的过程写一句“显而易见”,然后就莫名其妙的出现了结果,这让我们基础差的人情何以堪啊,更何况我问了那些数学好的,他们想推导出那一步也要想好久。后来换了一下同济大学版,发现同样的定理,同样的范围,就是理解起来容易了不少。果然好书和差一点的书差别真不少。所以我就在网上整理了一些好的数学书籍,等会儿x就贴到文后,以后慢慢补。
\"技术分为术和道两种,具体的做事方法是术,做事的原理和原则是道。这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余。” ,然后吴军先生用搜索反作弊的例子漂亮的解释了这两种差别。我以前做过的项目里,如果出现没想过的情况,就加一个异常处理处理特殊情况,本来很简单的东西,愣是被我搞复杂了。现在想回来,那时候境界太低,连开始的本质和原理都没弄清楚,就埋头搞下去了,以后要多注意点。
我一向喜欢实用性强的方法和工具,在这书里我特别喜欢阿米特・辛格博士的那一章。吴军博士就用寥寥几页的描述中讲解了辛格博士的处理事情的方法和原则,先帮用户解决主要的问题,再决定要不要纠结在次要的部分上;要知道修改代码的所作所为,知其所以然;能用简单方法解决就用简单的,可读性很重要。
不过中间有两个部分没搞明白,最大熵模型和贝叶斯网络,没搞懂为什么能解决那些问题。贝叶斯网络还能稍微理解,少了马尔科夫链的线性约束,更自由;但最大熵模型真搞不懂为什么那么好用,以后继续研究。
总之这是一本很好的`书,推荐大家读一下。
篇15: 《数学之美》读后感
确切的来说,《数学之美》并不是一本书,它是谷歌黑板报中的一系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用,每一篇文章都不长,但小中见大,从看似高深的高科技中用通俗易懂的案例展示了数学之美,深深的吸引了我。
这一系列文章的作者是google公司的科学家吴军。他毕业于清华大学计算机系(本科)和电子工程系(硕士),并于1993-在清华任讲师。他于19起在美国约翰霍普金斯大学攻读博士,并于XX年获得计算机科学博士学位。在清华和约翰霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和XX年eurospeech的最佳论文奖。
吴军博士于XX年加入google公司,现任google研究院资深研究员。到google不久,他和三个同事们开创了网络搜索反作弊的研究领域,并因此获得工程奖。XX年,他和两个同事共同成立了中日韩文搜索部门。吴军博士是当前google中日韩文搜索算法的主要设计者。在google其间,他领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了公司首席执行官埃里克.施密特的高度评价。吴军博士在国内外发表过数十篇论文并获得和申请了近十项美国和国际专利。他于XX年起,当选为约翰霍普金斯大学计算机系董事会董事。
正是他在信息检索与自然语言处理领域中的一系列工作,使他讲述了我所看到的内容-数学之美。
看了数学之美,立即联想到了金庸小说中的武林高人,总是把一套大多数人都会的入门功夫使得威力无比,击溃众多敌者。东西放在那,它的威力如何,并键在于使用者,武术如此,数学同样如此。
于我而言,语音视别是一类高科技,作为非专业人土,深觉高奥。但看完数学之美之后,顿感惊诧,原来如此深奥东西的解决方法自己也学过,并且理工科读过大学的人都学过,那就是统计学中的条件概率p(a/b),即b事件发生条件下a事件发生的概率。
如果s表示一连串特定顺序排列的词w1,w2,…,wn,换句话说,s可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道s在文本中出现的可能性,也就是数学上所说的s的概率用p(s)来表示。利用条件概率的公式,s这个序列出现的概率等于每一个词出现的概率相乘,于是p(s)可展开为:
p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)
其中p(w1)表示第一个词w1出现的概率;p(w2|w1)是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词wi-1有关(即马尔可夫假设),于是问题就变得很简单了。现在,s出现的概率就变为:
p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…
(当然,也可以假设一个词又前面n-1个词决定,模型稍微复杂些。)
接下来的问题就是如何估计p(wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi)在统计的文本中出现了多少次,以及wi-1本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,p(wi|wi-1)=p(wi-1,wi)/p(wi-1)。
也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在google的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(nist)对所有的机器翻译系统进行了评测,google的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。
这就是数学的美妙之处了,它把一些复杂的问题变得如此的简单。
看到《数学之美》,在感叹数学的美妙与神奇之处时,自然而然联系到自己专业(地质工程而或岩土工程)中的数学应用。
现在找文献,搜索期刊一大堆基于数学的专业文献,灰色数学的、模糊数学的、非线性的、系统的,等等,这么多的数学的使用,促进了一大批的文章,但这些数学方法的应用究竟是发现了哪些问题?还是解决了实际问题吗?还是仅发了文章,满足了需求?现实是文章好发,用着难用,解决问题还得传统的方法,那么是这些数学方法不行,还是用的太肤浅,根本没发挥其威力来?如果没有发挥出威力来,那怎么用?怎么发挥?
篇16:数学之美读后感
看数学之美,悟技术之道
周旭龙
一、关于此书
数学之美
记得几年前看完了《浪潮之巅》之后,便知道了吴军老师还有另外一本非常出名的著作《数学之美》,但是一直没有列入计划阅读。直到我看完了《硅谷之谜》以及《智能时代》之后,便自己上网买了一本第二版的《数学之美》。正如李开复博士所说:“在我认识的顶尖研究员和工程师里,吴军博士是极少数具有强大叙事能力和对科技、信息领域的发展变化有很深的纵向洞察力,并能进行有效归纳总结的人之一。”,正是因为在前面几本书中我看到了吴军老师强大的“讲故事”的能力,他能用通俗易懂,深入浅出的语言将技术原理讲清楚,这就十分腻害了,在《数学之美》中他也再次展示了这一点。
最近除了阅读《数学之美》,还订阅了吴军老师的《硅谷来信》,每天在早上洗漱时听一封信,在睡觉前也会听一封信,借吴军老师之眼去看世界,也可以读到一流的科学家/工程师对于各种事件非常独特的见解,以丰富自己的眼界。在此,感谢之前Sobey公司的我的前老板刘总的推荐,我也将《硅谷来信》推荐给你们(可以利用你们的碎片时间来学习)。
二、看数学之美
Part 1 简单即是美的方法
这本书一共29章,主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。
例如,在统计语言模型一章中,我们会发现原来使用简单的数学模型就可以解决复杂的语音识别、机器翻译等问题,但是使用很复杂的文法规则和人工智能却做不到,而这些仅仅需要我们了解概率论和统计学的知识就可以应用到工程中。(当然,最先提出将统计学方法应用到计算机应用工程问题的先驱们是真的值得我们为其鼓掌的!)此外,简单的布尔代数就是支撑搜索引擎索引的数学基础,一个漂亮的pagerank矩阵乘法迭代加上一个TF-IDF公式,就可以大程度地改善搜索结果的质量,()无一不体现出简单即是美的特点,而数学模型刚好符合这个要求。
又如,在信息的度量和作用一章,我们再次回顾了信息熵的重要性,这也是吴军老师一直在重复提及的信息论(吴军老师喜欢站在信息论的高度看问题,而不只是看到片面的表象)。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定唯一的办法是引入信息,而需要引入的信息量取决于这个不确定的大小。就像我们在追一个女生的时候,很多时候往往不是一拍即合,一见钟情的,只有互相表达的信息(即引入信息)足够了,才会消除各自对于对方的顾虑。等到引入的信息量消除了处在两个人之间的屏障,那么我们就可以跟对方告白宣告在一起了。
本书中介绍的所有的这些方法在吴军老师的笔下都只为了突出一句话:数学的精彩之处就在于简单的模型可以干大事。
PS:对于书中提到的大部分的数学模型都有其开源的代码实现,而我们这些工程人员只需要使用这些开源工具到自己的实际项目中即可,么么哒!
Part 2 传道授业的专家们
这本书除了在高层讲述数学方法在计算机应用(主要是语音识别等互联网应用领域)的基本原理(吴军老师称其为“道”)外,还穿插了一些传道的专家们的故事,包括:贾里尼克、辛格、马库斯以及维特比等。
比如,吴军老师的博士生导师贾里尼克教授。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”。这让我回想起当年看李开复博士的《世界因你而不同》一书中听到的一句话(李开复博士的导师罗迪教授给李开复讲的一句话)“我不赞同你,但我支持你”,于是也就有了李开复在语音识别领域的一鸣惊人的成就。贾里尼克的一生富于传奇色彩,先在哈佛大学、康奈尔大学教书,接着在IBM任职,之后又去约翰-霍普金斯大学教书。他的贡献主要有如下几个:第一,提出了统计语言识别的框架结构;第二,共同提出了BCJR算法;第三,领导建立了世界著名的CLSP实验室。
又如,辛格博士现任主管Google搜索的高级副总裁,并被学术界公认是当今最权威的网络搜索专家。他奉行简单的哲学,并一直坚持寻找简单有效的解决方案。令我印象最深刻的就在于,吴军博士在设计分类器时,依照吴军力求完美的态度,应该还会花很多时间去尽善尽美,但是被辛格博士止住了,“在工程上简单实用的方法最好”。这种做事情的哲学其实非常值得我们借鉴,即先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业界成功地秘诀之一。许多失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。在我们的日常工作中也是一样,在项目开发设计中,很多人不管业务场景和技术要求,一上来就这种架构那种模式,往往不考虑到底这种设计是不是大牛拉小车,最后虽然解决了问题但是交付时间被延后,既让用户不满意也让部门不满意。
三、悟技术之道
吴军老师在《数学之美》中提到:“这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余”。回到我们日常的开发工作中,作为IT工程师,程序员,要跟上技术的大潮流,需要学习的技术太多太多,如果一味地只为去追技术的脚步,那么我们也会很累很累,而且可能会是花了80%的时间却只得到了20%的效果,更别谈期望值最大化了,或许根本就达不到你期望值的60%。相反,比如cnblogs(博客园)在招聘工程师一直提到的“3大原理,2个协议,1种结构”(计算机原理、操作系统原理、编译原理、TCP/IP协议、HTTP协议、数据结构)却是没有怎么变化的(甚至是短时间不会变化的),而这些东西恰好是在这个浮躁的社会,我们这些所谓的计算机系的毕业生,所谓的科班毕业生所缺乏的(因为大部分人都没有在大学期间将这些东西真正地学好,而只是为了所谓的几个学分去图书馆奋战一两个周末而已)。站在高处向下看,也许我们一直看不到底,但是站在底处却是可以看见底的,这也是我为什么在毕业之后还要去重新温故操作系统原理和数据结构等科目的原因。
愿我们能够在底层站的更稳后,能够以一种更加全局的视角去看待上层建筑,感悟技术之道!
篇17:数学之美读后感
《数学之美》,读来确实有感:数学美。
――邓毅雄
吴军博士的《数学之美》
读来确实有感:数学美。
――邓毅雄
这本书,主要涉及自然语言处理、网络搜索引擎等问题,介绍解决问题的数学方法,这些方法基本不属高大上,用到的数学知识并不复杂,有的甚至属中等数学,如余弦定理。像较好解决复杂的自然语言识别与翻译的统计方法,只是条件概率与马尔可夫链的应用;解决网页排名的PageRank算法,其核心是数学的n维向量和数值计算中的迭代法;密码学中的公开密钥方法,仅仅是较大素数的乘、除运算而已,等等。复杂的现实问题,简单的数学方法,彰显数学之韵味和数学之美。
数学之美
数学之美,源自数学的概括与抽象。而数学的抽象,又恰恰是许多人难以接受数学之梗阻。所以,一般来说,能够欣赏到数学之美,必有一定的数学基础。不过,吴军的《数学之美》,语言通俗,略沉心境,顺利读懂其要义,应该是不难的事。有这种说法,真正的大师,能够将复杂的东西,通俗表达。这话我不尽信,但也确实佩服那些把数学理论通俗易懂、形象生动描述的专家,读了《数学之美》,觉得吴军博士不错。
人类发明了许许多多的语言,如自然语言(包括各国各民族的语言)、音乐、绘画等,数学也是一种语言。读懂各种语言,需要下一定功夫,只是有些语言本身比较通俗,功夫不用太深,但像数学这样的语言,数字化,符号化,抽象化,逻辑化,难言大众望而生畏,也着实不少人望而却步。如果我们的数学老师们,能够将这些“化”都“简化”,或者尽量简化些,那是不是有更多的人有迎难而上的勇气呢?也许吧!然而,毕竟数学除了作为工具性角色,还要培养和训练人的思维,一味地简化和通俗,那种逻辑思维的特征要素,失之亦可惜呀。前些日,读了保罗.洛克哈特(美国)的《度量:一首献给数学的情歌》,其对形状和运动的度量叙述,非常通俗,给人启发,但对我这数学背景出身的人来说,因思想深处固守那份对抽象性和逻辑性的呆痴,而总感觉其味不够,犹如爱好辣味的江西人,怕不辣二无味。
五世纪著名数学评论家普洛克拉斯说:“哪里有数,那里就有美”。我国著名数学家华罗庚说:“就数学本身而言,是壮丽多彩、千姿百态、引人入胜的……认为数学枯燥乏味的人,只是看到了数学的严谨性,而没有体会出数学的内在美。”数学之美表现丰富,如美的形式符号、美的公式、美的曲线、美的曲面、美的证明、美的方法、美的理论等。从内容来说,数学之美有可分为结构美、语言美与方法美,数学也有简洁之美、对称之美、和谐之美。罗素说,数学的美,“是一种冷而严肃的美”。所以,欣赏数学的美,是需要一定能力和技巧的。
数学的应用,也是数学美的特征。科学发展到现在,数学应用无处不在,数学应用的方法很多。一个数学的抽象,包含了无穷的客观现实。解决问题,尽量方法简单,能简不繁,是一种原则。数学应用之美,就在于简单,在于巧妙,在于效奇。
作者:邓毅雄
篇18: 数学之美作文
数学之美作文
数学,是打开科学大门的一把钥匙。数学,既锻炼了我们的思维,又给平淡的生活增添了几分乐趣。
数学中有个很有意思的东西,他的名字叫“莫比乌斯环”,为什么说他很有意思呢?因为,我们普通的一个圆环,之后两个面,也就是正面和反面,两面可以涂上不同的.颜色;而莫比乌斯环,它具有魔术般的性质,它没有正反面之分,也就是说,用笔不间断的涂色,你无需翻面,就可以将纸的两面全部涂上颜色,换一种说法,一只小虫子可以爬遍整个曲面,而不跨过他的边缘,这种环形,就叫莫比乌斯环,也叫莫比乌斯带。
莫比乌斯带不仅好玩,制作也很方便,只要将一个长方形纸条扭转180°,一个莫比乌斯环就做好了。
不过,莫比乌斯环的有趣之处还不止有以上两点,莫比乌斯环,沿着中间的线把它剪开,它不仅不会一分为二,还会变成一个是原来的二倍的大环,如果再沿着中间剪开,这次就真的一分为二了,但有趣的是,两个圆总是相互套在一起,而不分开。
而且,莫比乌斯环在工业领域上的作用也很大,如:用皮带传送的动力机械的皮带就可以做成“莫比乌斯环”的样子,这样皮带可以磨损的面积就变大了;如果把录音机的磁带做成“莫比乌斯环”的样子,磁带就只有一个面了,它还能平坦的嵌进三维空间呢!
莫比乌斯环还能用于装饰,比如莫比乌斯环戒指就比普通的戒指漂亮的多!
数学是所有学科中最有意思的学科,也是所有学科中最美的学科,让我们一起走进数学的世界,一起惊叹于数学之美吧!
篇19: 数学之美读后感
看到吴军的另一本书《数学之美》,激起了很深的兴趣,所以很快把书看完了,普及了很多基础的知识的同时也启发了很多想法,感觉很爽。
我自己在交大学的是工科(虽然没怎么上过课),小学、初中、高中都是一路参加数学竞赛,名次都还不错,也因此没有参加中考、高考,一路保送,自己对数学有很深的感情,同时女朋友大学也是数学系,有点后悔的大学选了个并不感兴趣的专业(交大当时允许我随便选专业,我没有跟父母商量自己选了船舶制造)。看这本书的过程中找到了很多高中在看竞赛书的感觉,里面提到的很多概率论(不等式)、图论、数论的知识是高中数学联赛复试的重点,高中的时候已经研究的很深了,不过大学荒废了之后也忘得差不多了,书中提到的很多定理还很有亲切感
书名叫做《数学之美》,显得有些太大,毕竟更多的是吴军在google做搜索相关工作用到的数学模型的介绍与总结,提到的数学部分大多集中在概率论、图论、数论领域,所以书名太大了,可能hax说得对,也许是出版社为了卖书取得名字
不得不说吴军是一个大家,文字中能够透露出大家的气势,书中不断的穿插着各种历史上的大科学家以及科技领域的大家的小故事甚至八卦,从文字中非常能够感受到吴军是一个和他们一个层次的人(即使他自己会自谦说是一个二流的工程师之类)
书中具体的模型就不介绍了,说几点我学到的知识(仅仅皮毛),能列出来的都是看完还有点印象的:
1、在互联网的世界中,信息是如何量化的,信息熵是怎么回事?有啥用?
2、搜索领域中,语言是如何统计的,尤其是如何通过概率模型进行分词
3、搜索引擎是如何工作的―网络爬虫是怎么回事儿
4、PageRank是怎么回事?为了解决什么问题?
5、密码与解密领域的数学模型,尤其提到的二战时候的各种解密的趣事儿,提到的电视剧《暗算》打算抽空看下
6、拼音输入法的数学模型
7、文本自动分类的模型
……
看完之后最大的感受就是:
1、数学模型巨大作用,推动着新技术的发展
2、攻城师是一个伟大的职业,能够运用这些知识转化为生产力,非常牛叉
3、书中提到了很多数学模型都是在不断的进化、改良、升级,也就是说有人不断的在做优化,会有不断更好的模型、更新的技术出现,跟得上技术的发展可能也是比较重要的,否则很多人一直在做某一点上的持续优化就没有意义了。
但同时技术很大的作用是用来解决实际问题的,书中提到的各个数学模型、各种方法都是为了解决人们的需求或者业务的需求,毕竟公司不是科学研究所,所以追求通过技术直接解决用户需求或者做成易用的工具给业务人员、运营人员来间接解决用户需求是挺重要的,可能不是技术人员觉得做到80分就可以了,而是用户、使用工具的人觉得做到80分是一个重要的衡量
提到“工具”,想到赵赵说过的一句话:“不好用就等于没有”,可能就是这个点,同时运用工具的人必须好好的运用,如果用不好甚至不用就太对不起技术了。
《数学之美》读书笔记当看完一本著作后,你有什么总结呢?这时最关键的读书笔记不能忘了哦。可是读书笔记怎么写才合适呢?下面是小编收集整理的《数学之美》读书笔记,供大家参考借......
数学之美——论数学与文学结合之美数字,在人们生活中广泛应用;数学,创造了许多如诗如画的篇章。数学与文学相结合,产生的便是一种形式的数学美。数学,自诞生之日,便与美产生了相偎......
刀豆文库小编为你整合推荐8篇《背影》读书笔记感触,也许这些就是您需要的文章,但愿刀豆文库能带给您一些学习、工作上的帮助。......
《合欢树》读书笔记感触当品读完一部作品后,你有什么体会呢?此时需要认真思考读书笔记如何写了哦。你想好怎么写读书笔记了吗?以下是小编整理的《合欢树》读书笔记感触,仅供参考......
《背影》读书笔记感触当阅读完一本名著后,你有什么领悟呢?是时候抽出时间写写读书笔记了。但是读书笔记有什么要求呢?以下是小编收集整理的《背影》读书笔记感触,仅供参考,大家一......
