欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

你对数学可能有哪些误解?

最编程 2024-07-12 13:11:49
...

就在2月13号,我立下了一个flag,就是14天挑战吴军《数学通识50讲》,然后输出一篇读书笔记,那现在就是兑现诺言的时候了。

其实我也不知道为什么要去学这个,可能是之前老是听成甲老师和查理芒格说数学是最底层的基础学科吧!

当然,在看之前,我给自己准备了一些问题,

1.为什么要学数学?我学数学通识的目的是什么?

2.数学是什么?和其他学科体系有什么关系?

3.数学这门学科主要解决哪些问题?主要应用于哪些领域?

4.《数学通识》这门课程作者是如何搭建数学知识体系的?通过《数学通识》教育想要告诉我们什么?

5.从这门课程当中,我收获到了什么?接下来我该如何在生活中运用它们呢?

那看完这个数学通识,我到底收获了些什么呢?那下面我就围绕这五个问题来回答。

1.为什么要学数学?我学数学通识的目的是什么?

说实话,我以前对数学还真有误解,感觉发明数学的人就是吃饱了撑的,整出这么多幺蛾子,发明出这么多算式公式来整人,在生活里除了能用上加减乘除的运算,还有啥,

为了应对高考,搞得我们不得不天天刷题。

学习了这门课程,我才知道为啥要学数学了。因为数学是自然科学的基础,这句话怎么理解呢?

这里补充一下数学和自然科学的区别,即数学的推理世界与我们真实的测量世界的区别。

什么是自然科学?

自然科学的目的是发现自然现象背后的规律。它是以定量作为手段,研究在无机自然界和包括人的生物属性在内的有机自然界的各门科学的总称。是研究大自然中有机或无机的事物和现象的科学,包括天文学,物理学,化学,生物学,地球科学。

自然科学社会科学,思维科学并称科学三大领域。社会科学研究各种社会现象的科学,涵盖学科广泛,包括经济学,政治学,历史学,法学,伦理学,社会学,心理学,管理学,新闻学,传播学等。广义的社会科学包含了人文科学,如历史就是社会科学与人文科学的交叉。

思维科学系研究思维活动规律和形式的科学,研究人的意识与大脑,精神与物质,主观与客观的综合性科学。涉及学科:哲学,心理学,逻辑学,生理学。

在自然科学中要用到数学,而且只有采用了数学的方法,才让自然科学从“前科学”,或者说带有巫术性质的知识体系,变成我们今天意义上的科学体系。

制造数学的目的在很大程度上是为了发展自然科学,而非数学本身,这就如同牛顿为了研究运动学而发明了微积分一样。

在数学上,当一个新的定理被证明后,就会产生很多自然的推论,每个推论可能都是一个重大的发现,在自然科学上,很多重大的发现,最初都不是直接和间接观测到的,而是根据数学推导出来的,比如说黑洞引力波便是如此,

在历史上血液循环润现代原子论,最初都是建立在数学推导上的假说,然后才逐渐被实验验证了,世界上有很多我们不能依靠直觉和生活经验理解的事物,但是我们可以从数学出发,经过一步步推导得到正确结论,我们甚至不需要亲力亲为的做一遍,就知道我们的结论一定是正确的。

毕达哥斯拉店里的一个直接推论就是无理数的发现。数学中很多工具都是建立在世界并不存在的虚构概念上,将它们用于现实的社会非常有用,理解了无理数,那么学习物理,做信号处理的工作,搞控制系统都会很顺手。

从数学的定理出发可以推导出很多针对现实世界推论,从而改变我们对现实世界的看法,这就是数学的预见性。

所以说数学是一切科学的基础,它能化繁为简,直击本质。

我学数学通识的目的起初更多的是好奇驱动,我想知道数学到底有什么用?为啥这么多高手都推崇要学数学?

那么数学到底是什么呢?

2.数学是什么?和其他学科体系有什么关系?

数学的本质是工具。高等数学本质上是对趋势的动态描述,是对各种相关性抽象的表述。

从初等数学到高等数学(线性代数和微积分是高等数学的主要板块)就是要把看数字的眼光,从一个个静态的数字,孤立的公式上升到变化的趋势。

美国人为了强调数学的工具性,在小学教学生们笨办法,例如鸡兔同笼的问题,

在一个笼子里,有鸡和兔子,从上面数,数出来35个头,从下面数,数出来94只脚,请问鸡和兔子各有几只?

我们中国学校通常会这么教:

我们假定笼子里全是鸡,那么应该有35 x 2 =70条腿。

但是现在有了94条腿,多出24条,就应该是由四条腿的兔子造成的。

如果我们用一只兔子替换一只鸡,就会多出两条腿,那么替换24条腿需要多少只兔子呢?

24 / 2 = 12,于是就有12只兔子,剩下的就是鸡。


那美国是怎么教的呢?

在小学他们不教学生那些需要技巧的解法。对于鸡兔同笼问题,就是列表的笨办法。比如,在第一个例子中,他们先让学生们明白,兔子的数量不能超过94/4 = 24只,然后就列一张表,从24只开始往下试验,看看脚的数量有多少:

鸡兔同笼

以后再做其它相似的问题时,就可以从上述过程中受到启发,事实上,只要是有整数解的各种二元一次方程的问题,都可以用列表这种笨办法解决。也就是说,美国小学的做法实际上是教给了大家一个很笨的,但是很通用的工具。这样,能解决一个就能解决很多,虽然办法很笨,很花时间,但总不至于让孩子们无从下手。

相比之下,我们学了很多针对具体问题的解题技巧,其实用处远没有想象的大。

在学习数学时,我们最需要做的,就是将生活中的某些问题,由自然语言翻译成数学语言,然后用相应的工具来解决。


数学是一个公理化的体系,这既是数学的特点,也是数学的方法,还是数学对其它知识体系有启发的地方。这里的其他体系包括哲学,自然科学,逻辑学等体系。

说到这,或许会有点懵,什么叫公理化的体系?

公理就是那些不证自明的,无法证明的道理,你可以把公理理解为“上帝的禁区”,公理就是最底层的基础,在公理之上,数学完全是理性的。

一个数学的分支,其基础一旦建立起来,就几乎不会改变了。比如,今天,我们不可能在几何公理之下,再建立更深的基础。也就是说,数学已经到底了。

举一个几何学的例子来帮助大家理解一下什么是公理?

几何学源于古埃及,当地人出于农业生产的考虑,对天文和土地进行度量,发明了几何学。

整个几何学的基础是十条非常简单的公理,它的发展依靠对新定理的发现和通过逻辑推理证明这些定理。

五条一般性的公理分别是:

1.如果a=b, b=c, 那么a=c;

2.如果a=b,c=d,那么a+c=b+d;

3.如果a=b,c=d,那么a-c=b-d;

4.彼此能重合的物体(图形)是全等的;

5.整体大于部分。

五条几何公理分别是:

1.由任意一点到另外任意一点可以画直线(也称为直线公理);

2.一条有限直线可以继续延长;

3.以任意点为心,以任意的距离(半径)可以画圆(圆公理);

4.凡直角都彼此相等(垂直公理);

5.过直线外的一个点,可以做一条,而且仅可以做一条该直线的平行线(平行公理)。至于平行线,就是平面上永不相交的两条线。


这十条公理看上去是不是几乎无法推翻的,在这样的基础上建立起来的数学才是严谨的,从而也说明数学的结论只能从逻辑出发,通过归纳或者演绎得出来。它必须完全正确,没有例外,因为但凡有一个例外(也被称为反例),就要被完全否定掉。

理性的数学家们对公理的态度,更像是一种信仰。

这一点反倒是和哲学有很大的相似性,因为哲学也是建立在对世界本原认识的基础之上的,可以说是高高在上的学科,数学如果是最基础的学科,哲学就是最顶头的学科,

我们或许会觉得这一头一尾的数学和哲学是没有实际用途的,中间可以实用的自然科学才值得我们去学习。但是,无用之用,方为大用。一个人只有在深刻理解了人类知识的普遍性原理之后,才能站在一个制高点往下俯视。这也是数学和哲学的共同之处。

数学和哲学的关系就略带提一下,重点还是数学与自然科学的关系。马克思曾经描述数学和自然科学的关系:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。

可见前人对数学是多么看重,下面我们来看一下自然科学“+数学”的改造案例。

第一个被数学改造的学科是天文学。古代文明为了推算历法和预测地上发生的各种现象,发明了占星术。但是,占星术的预测是极为不准确的,因为它措辞含混,而且缺乏量化度量。

从占星术到天文学的转变源于古希腊时期,特别是靠喜帕恰斯和托勒密的工作,他们利用数学这个工具,建立起天体运动的模型,于是就能比较准确地预测天体的运动了。其中最著名的是托勒密利用几何学建立起来的地心说模型。

第二个被改造的学科是博物学,亚里士多德使用分门别类的方法,对他那个时代所了解的世界万物进行分类,这和今天数学的集合论以及函数的概念有很高的一致性。由于篇幅的原因,我们不多讲了。

第三个被改造的学科是物理学,这个过程始于阿基米德,成熟于伽利略,并且在后面不断地被发扬光大。

阿基米德最为人熟知的贡献是发现了浮力定律和杠杆原理。浮力定律并非是从大量实验中总结出来的,而是他受到洗澡时的灵感,运用逻辑得到的。至于杠杆原理,虽然比阿基米德早2000多年的古埃及人就知晓了,但是将它用数学公式描述出来的是阿基米德。

在阿基米德之后,希腊化地区不再有这个级别的科学家,因此建立物理学大厦的任务就落在了伽利略身上。伽利略的伟大之处在于,他把数学方法和实验方法结合起来研究自然界的现象,使物理学摆脱了经院哲学的束缚。杨振宁说,数学和物理是两片生长在同一根管茎上的叶子,这非常形象化地说明了数学与物理之间的关系。

在伽利略以后,物理学的数学化加快了步伐,而在牛顿之后,最重要的物理学家是麦克斯韦,他对电磁学的贡献,堪比牛顿在经典力学上的贡献。

在麦克斯韦之前,库仑、安培、伏特、焦耳、法拉第等人都通过实验发现了电学的一些规律。但是,这些理论缺乏系统性,没有完全道出电和磁的本质。麦克斯韦和这些物理学家都不同,它是从数学出发,把前人的理论,特别是把法拉第有关电磁场的想法归纳成几个简单的方程式,使得电学和磁学统一为电磁学。

从以上案例即可看出数学对自然科学的帮助,主要体现在工具和方法两方面。数学作为工具很容易理解,比如微积分是今天很多自然科学研究的基础,离散数学是计算机科学的基础,而这在物理学中特别明显。但是,对大家更有借鉴意义的可能是在方法上。

我们从各种自然科学的升华过程可以看出,它们有这样三个共同点:

从简单的观察上升到理性的分析。今天我们观察到一个现象是一件很容易的事情,大部分人都能做到,但是能够对现象进行理性分析的人很少。这是每一个人都需要锻炼和提高的。

从给出原则性结论到量化的结论,虽然我们不需要像拉瓦锡那样随身带着天平,但是需要明白很多事情必须量化度量才能得到准确的结论。

将自然科学公式化,或者说用数学的语言来描述自然科学。今天,不论是哪个国家的人,看到了F=ma,都知道是牛顿第二定律,看到E=mc^2,都知道是爱因斯坦的质能方程,看到H₂O,都知道是水。

古代很多科学手稿,采用的是自然语言,而非数学语言来描述物理学的规律,这种做法不仅不形象,而且里面有一些彼此矛盾的地方难以发现。在采用了数学公式描述自然科学规律之后,由于公式的严谨性,一旦有矛盾之处,就很容易被发现。

了解了自然科学的发展在很大程度上就是“+数学”的过程,这便是数学与自然科学的关系。

数学结论的正确性,取决于公理的正确性,以及逻辑的严密性,因此数学和逻辑也是密不可分的,特别是像欧几里得几何这种数学体系,完全依赖于逻辑。但是,数学和逻辑又是完全独立的两门学问,不能混为一谈。

关于逻辑学,最典型的就是同一律,矛盾律和排中律,到底啥意思呢?

同一律,它通常的表述是,一个事物只能是其本身。这句大白话背后的含义是,世界上任何一个个体都是独一无二的。注意这里说的是个体,不是群体。一个事物只能是其本身,而不能是其他什么事物。苹果就是苹果,不会是橘子或者香蕉。

因为有同一律,我们才可以识别出每一个个体,这在数学上可以用A=A这样的公式表示,

矛盾律,它通常的表述是:在某个事物的某一个方面(在同一时刻),不可能既是A又不是A。数学中的反证法,就是基于矛盾律。

排中律,它通常的表述是,任何事物在明确的条件下,都要有明确的“是”或“非”的判断,不存在中间状态。比如在数学上,一个数字,要么大于零,要么不大于零,没有中间状态。有人可能会说,等于零不就是中间状态么?其实大于零的反面并非小于零,而是不大于零或者说小于等于零,因此等于零的情况其实就是不大于零的一种。

排中律保证了数学的明确性,通常我们在数学上使用排中律原则最多的时候,就是在所谓的排除法或者枚举法中。当我们排除了一种情况时,和它相反的情况就一定会发生。如果有多于两种对立的情况,我们可以先把所有可能的情况二分,然后再不断二分,直到每一个彼此不重复的情况为止。

在计算机科学中,任何和二分相关的算法,其逻辑基础都是排中律。

数学和其他学科体系的关系就说到这里了,我们继续回答一下个问题。

3.数学这门学科主要解决哪些问题?主要应用于哪些领域?

其实这个问题上面已经提供了答案,数学的本质就是工具,而且还是非常严密可靠的工具,自然学科“+数学”后都变得非常科学,应用领域其广泛程度不言而喻。


4.《数学通识》这门课程作者是如何搭建数学知识体系的?作者通过《数学通识》教育想要告诉我们什么?

这门课程讲了代数学、几何学、微积分、高等代数、概率论,以及简单的数论、最优化、实变函数和博弈论。

第一个模块讲的是毕达哥拉斯定理(亦称勾股定理),以及数学在美学当中的应用:黄金分割定律

第二个模块讲“数的概念”。主要讲了无理数,虚数,无穷大,无穷小等数的概念,突出了数学作为“抽象思维”工具的作用,比如人们从具体算术到抽象代数,用到解方程、虚数等等,为什么要学习它们?因为它们的角色是人类造出来的抽象工具,在现实生活中并不存在,但是有了它们,现实的问题就好解决了。

数学通识教育,一个重要目的就是让大家习惯于使用这样的抽象工具。

第三模块讲的是几何。在几何的模块中,介绍了什么是公理化的知识体系,它是如何建立的。

第四模块讲的是代数。在代数的模块中,重点介绍了函数向量。函数这个概念的发明,把人类的认知从个体上升为整体,从单点联系,上升为规律性的网状联系。

第五模块是微积分,这是高等数学的内容。和初等数学的工具的不同之处在于:人们开始对把数学从关注静态的关系,变成了对动态规律,特别是瞬间规律的把握上。

理解这一点,并且主动应用到工作中,是学习微积分的主要目的。

以上都是能给出问题唯一的答案的数学分支,

但到了近代,很多现实问题很难有完全确定的答案。于是,为了研究不确定世界的规律性,概率统计发展起来了。数学的这个分支在今天我们充满不确定性的世界里非常重要,也是所谓的大数据思维的科学基础。

所以后面的第六第七板块的内容也主要在这里,

纵观数学发展的历程,以及我们应该具有的数学思维历程,我们可以看到这样的趋势,从个案到整体规律,从个别定理到完整的知识体系,从具体到抽象,从完全的确定性,到把握不确定性。

那看完这些后,作者通过《数学通识》教育想要告诉我们什么?我印象中最深刻的就是作者他特别强调数学是个工具,学习数学就是练习自己使用工具的能力,花很多时间在学习小的解题技巧上不值得。因此不要因为掌握不了一个小技巧而沮丧。最要注重学习的是概念,以及概念之间的联系,然后能够把现实的问题转化为数学问题。

我想这也是我学数学通识的主要目的了。

5.从这门课程当中,我收获到了什么?接下来我该如何在生活中运用它们呢?

收获一:重新理解了“无穷大”和“无穷小”

在我以前的认知里,无穷大是一个具体的数字,只是它比我能想象的数更大而已,但作者告诉我无穷大的世界和我们日常认知的世界完全不一样。

在无穷大的世界里,数学中的很多逻辑都需要重新梳理一遍。我们在有限的世界里得到的很多结论,放到无穷大的世界里,需要重新检验,有些能够成立,有些不成立。

比如说在有限的世界里,一个数加上1就不等于这个数了,因为比它大1,但是在无穷大的世界里,这条结论就不成立,因为无穷大加1还是无穷大,

无穷大不是一个具体的数字,它是数列或者函数变化的趋势,是动态的,它反映一种趋势,一种无限增加的趋势。所以必然有某些数列或者函数会比其他的增加更快,有些则相对慢一点的情况。

我列举了一些函数来更好地理解一下,这些函数在零附近都是无穷小,它们的阶数也越来越高:

平方根

x本身、正弦函数

平方函数 x^2

立方函数 x^3

指数函数的倒数

在这些函数当中,我们也可以对无穷大比较大小。无穷小是趋近于0,然后谁接近0的速率更快,谁就是更小。

特别需要指出的是,很多个低阶无穷大,加在一起增长的速率都比不上一个高阶的。比如说10000x和x的平方相比谁大,当x趋向于无穷大时,后者要大得多。当然,x的立方又要比任意有限个x的平方大。

当然你可能会想,这些函数最后反正都趋近于无穷大,你比较它们有意义吗?

答案是有的,因为无穷大本身的含义就是一种趋势,而不是一个数字。特别是在计算机科学出现之后,它的意义更明显。

举个例子,假如算法A的计算量和N成正比,那么当N从10000增加到100万时,计算量也增加100倍;如果算法的计算量和N的平方成正比,事情就麻烦得多了,当N同样从10000增加100倍到100万时,计算量要增加10000倍。

类似的,如果算法C的计算量是N的立方,则要增加100万倍。当然遇到极端的情况,计算量是N的指数函数,问题就无法解决了。相反,如果算法D的计算量是N的对数函数,那么太好了,无论N怎么增加,计算量几乎不增加。

计算机算法的精髓其实就是在各种无穷大中,找一个小一点的无穷大。一个好的计算机从业者,他在考虑算法时,是在无穷大这一端,考虑计算量增长的趋势,一个平庸的从业者,则是对一个具体的问题,一个固定的N,考虑计算量。

前者可以讲是用高等数学武装起头脑,后者对数学的理解还在小学水平。我们首先要通过学习课程换脑筋,然后才是掌握知识点。

无穷大和无穷小本身含义既然是趋势,那必然有趋势的博弈,

而事物的演化,也总会受到两种“趋势”的牵引;最后结果如何,在于二者“阶数”的高低。

例如,身体抵抗外来病菌的过程,就是“免疫系统消灭病菌的趋势”与“病菌在体内增殖的趋势”之间的博弈,只有前者的“阶数”不低于后者,才会康复。

如果个人财富的累积速度赶不上经济增长的速度,那么“活得足够长,早晚能买房”不过是一剂毒药。同样,企业的增长也是这个道理。

收获二:重新理解了“函数”

在中文里,“函数”这个词是清末数学家和翻译家李善兰创造出来的。大概定义就是:

凡是这个变量中包含另一个变量,这个变量就称为另一个变量的函数。也就是说,如果y随x变化,y就是x的函数。

有了函数,人类在认识上有了三方面的进步。

首先,我们就很容易看出两个变量之间是怎样相互影响。

比如说圆的周长是半径的2π倍,这是一种线性关系,圆的面积和半径的关系是平方关系,球的体积和半径的关系是三次方。

圆的半径从1变到2,面积就从原来的1倍变到4倍,体积就是原来的8倍。

其次让我们从对具体事物、具体数的关注,变成了对趋势的关注,而且可以非常准确地度量变化趋势所带来的差异。

善于做报告的人都知道,在PPT中最好不要直接引用数据,而要把它们变成曲线或者直方图。曲线和直方图其实就是对函数的一种形象表示,它们可以让那些原本对趋势不敏感的听众,实实在在感受到变化。

第三点,它能帮助我们通过学习几个例题,掌握解决一系列问题的方法。

比如我们知道了投掷和抛射一个物体,当初速度一定时,最后它飞行的距离是抛射角度的函数,那么我们就能算出不同角度下,抛射的距离。

当你的思维方式要从常数思维转变到变量思维,最后转变到函数思维后,你会发现,函数在我们现实生活中无处不在。比如在一个单位里,员工和他的工资之间,就是一种函数关系。

对于函数,很多人常犯的错误在于没有考虑定义域,滥用函数关系,比如你不能假设圆的半径是负数,然后套用S= πR^2这样的函数去计算面积。

有一个很重要的点,当一个函数是由多个变量决定它的函数值时,函数中的每个变量和函数值有相关性,有些还是百分之百的正相关,但是它们没有决定性,也没有必然的因果关系,切忌把相关性和因果关系混为一谈。

收获三:重新认识了“向量代数”

重新认识了向量代数后,我发现方向比努力更重要这句话真不是空穴来风的。

F合=a*b*夹角的余弦值(a,b代表向量)

当a,b两个夹角越大,余弦值就越小(看余弦值函数图像),合力也就越小,

这也就好比我的学习状态,学太多,四处发散,合起来的力还不如人家就在一个方向发的力大,对于那些一直在一个方向深挖的人,我几乎没有竞争力。

理解了数量的方向性,我们就可以得到一个自然的推论,那就是做事情要聚焦。如果不聚焦是什么结果?你往三个方向使劲,每一次努力其实都是有成本的,但是很多时候努力相互抵消掉了。

哈哈哈,开心不

收获四:重新理解了“微积分”

微积分有两位主要的发明人,牛顿和莱布尼茨。牛顿发明微积分的一个重要原因是,他需要一个数学工具解决力学问题,比如如何计算速度。

比如一个警察抓超速,依据的就是驾驶者的瞬间速度,而不是他一路开过来的平均速度。对于瞬间速度,牛顿之前的科学家并没有太多的了解,当然也不会计算了。

那么牛顿是怎么解决这个问题的呢?他采用了无限逼近的方法。具体的想法是这样的:

首先我们回到速度的定义,就是一段时间里的位移量????S除以相应的时间????t,我们可以写成速度v=????S/????t。

当时间间隔????t逐渐变小时,这个比值会变化,会越来越反映出在t0点附近的速度。当????t趋近于0时,那条反映速度的斜线,就是曲线在t0点的切线,牛顿就把那个切线的斜率,定义为在t0点的瞬间速度。

牛顿把这个由每个点切线斜率构成的函数,称为原来函数的流数,我们今天称之为导数。通常我们用y=f(x)表示原函数,用y=f’(x)表示它的导数。

我们说某个函数变化快,某个函数变化慢,都是宏观的描述,没有量化度量。导数解决了这个问题。我们还说,某个函数,越变越快,这也只是宏观的、定性的分析。

有了导数的概念之后,我们就可以准确地度量任意一个函数在某一个点的变化。因此导数的本质是对变化快慢的准确量化度量。

导数是微积分中最重要的概念之一,从导数出发我们稍微往前走一小步,就进入到微积分的微分了。

什么是微分呢?它其实就是在前面有关速度的例子中,????t趋近于零时,????S的值。对此一般性的函数,我们用dx表示自变量趋于零的情况,用dy表示函数的微分。

如果我们对比一下导数的定义f’(x) = ????y/????x,其中????x趋近于零,以及微分的定义dy =f’(x)dx,就可以看出它们讲的其实是一回事,因为????x和????y趋近于零之后,就是dx和dy。有时人们直接将导数写成f’(x) =dy/dx。

如果我们孤立地看微分dy,它是个无穷小,搞出这样一个新概念有什么必要呢?

其实在工作和生活中,我们经常会遇到这样的问题,一个函数取决于很多变量,这时我们不知道该在哪个方向改变,怎样才能以最快的速度进步。微分这个工具,其实给解决这一类的问题提供了很好的方法。它引出了一个梯度的概念,利用梯度,我们就能解决这个问题了。

举个例子,圆柱体的体积:V=????R^2 h,如果我要问,这个体积随半径变化快,还是随高度变化快?

对圆柱体函数,我们可以针对半径求微分dV/dR,也可以针对高度求微分dV/dh。

体积对半径R微分:dV/dR=2????Rh

体积对高度h微分:dV/dh=????R^2

如果我们把这两个微分的结果放到一起,就是梯度,也就是说圆柱体积函数的梯度是(2????Rh,????R^2)。

对比一下两个微分函数就会发现,哪个变化的速率快,还真不好说。假如R等于10,h也等于10,体积就随半径变化快。如果R=10,h只有1,那就是随着高度变化快。

梯度的物理含义可以这样理解,如果你去登山,怎样沿着最陡的方向,最快地爬到山顶呢?梯度函数会告诉你在任意一点,往不同方向走的上升速度是不一样的,因此你很容易找到前进的目标。在圆柱体函数中的梯度是上面那个式子,我们在前面得到的结论是,只要高度小于1/2的半径,就应该优先增加高度。

如果说你有一个目标函数,它可能受到多个变量的影响,那是你长期进步的趋势,但是在每一个时刻,你需要计算一下那个函数针对各个变量的微分,也就是梯度函数,找到进步最显著的方向去努力。这就是通过宏观趋势把握微观变化。

微分和积分是互为逆运算的。距离是速度的积分。速度是距离变化的微分,

积分的第一个意义:把握每一个细节对最后整体的影响

积分思想的本质是什么?它是要从动态变化来看累积效应。比如对于速度来讲,累积效应就是走过的距离。如果我们做匀速运动,速度是个常数,它的曲线就是在坐标轴上和横轴平行的直线,因此走过的距离是速度乘以时间,是个长方形。

但事实上,速度是一个随着时间不断变化的函数,忽快忽慢,那么在这样的速度下走过的距离就需要考虑每一时刻的动态变化了,积分就是提供这样的工具。

积分的第二个意义:从微观上每一时刻动态的变化理解宏观上积累的效果。积分最大的特点就是它的滞后效应,它包含两个要点:

凡是需要通过积分获得的数量,它的结果会滞后于瞬间变化,有时还要经过相当长的时间滞后才能看到。

这种由积分获得的数量,一旦大到被大家都观察到之后,要逆转这个趋势是非常难的。

我们有时候也把这种效应称为飞轮效应,因为如果我们在飞轮上匀速用力,根据牛顿第二定律,它的加速度也是匀速的。而速度是加速度的积分,是一个需要积累才能看到的量,因此具有滞后效应。

我们每一个人都应该记住,从努力,到能力,到成绩,到被赏识,是一级级积分的结果。反过来也一样,当我们开始觉得自己了不起了,停止努力时,你就会发现,一段时间后,能力就不适应新的工作了,再过一段时间就会做砸几件事情,几次累积下来,在单位的处境就危险了。这时要扭转局面,为时已晚。

人有一个很大的弱点就在于,他在开始努力的一瞬间,就指望能力马上提升,然后周围的人马上肯定自己,忘记了积累效应。如果别人不肯定他,他就觉得世界对他不公平。而当人开始放松,一开始并没有出问题,但是会逐渐出问题,这时大部分人只会想自己这件事情没有做好,而不是反思自己的问题很早以前就被种下种子。

收获四:重新认识了“概率论”

在代数学中,求出方程的解,是把不确定的未知数确定下来。

在函数中,则是把变量之间的关系确定下来。

在微积分中,我们对确定性的理解从宏观进入到了微观,当然也可以从微观来确定宏观。

而在概率论中,我们对不确定性世界规律将会有新的认识。

根据拉普拉斯对概率的定义,所有可能发生的情况放在一起,构成了一个随机事件总的集合(也称为概率空间)。任何一个随机事件,都是随机事件总集合里的一个子集。

比如掷两个骰子,随机事件总的集合就包含那36种情况。而某个随机事件,比如“两个骰子总点数大于10”,就是其中的一个子集,这个子集包含三个单位事件,即第一个骰子是5点,第二个骰子是6点,或者反过来,两个骰子都是六点。

众所周知,随机事件是不可控的,随机性是一种自然的属性,我们无法否认它的存在,它导致很多结果变得不确定。但是对于特定的随机试验,它得到什么结果,还是有规律可循的,数学家们用了一个概率的概念来描述这种不确定性。

用一句话来描述概率论的产生背景就是随机性是有规律可循的,于是才有了概率论。

我们都知道,统计学的规律只有经过了大量随机试验才能得出,也才有意义。但是随机试验得到的结果,和我们用古典概率算出来的结论可能是两回事。

比如说,我们知道抛硬币正反两面朝上的概率各一半,但你现在去抛十次硬币,真的有5次正面朝上么?

这就是现实概率和理想概率的偏差。为什么现实概率和理想概率总有偏差?

几百年前,法国数学家伯努利等人为了回答这个问题,就开始做一些最简单的随机试验,这种试验简单到只有两种结果,非A即B,没有第三种状态,而且在同样条件下重复这种试验,A和B发生的概率需要一致。

比如抛硬币,每次正面朝上的概率是1/2;掷骰子,事件A是“六点朝上”,它出现的概率每次也是1/6。当然事件B就是其它点朝上,每次的概率是5/6。在一般情况下,出现A的概率是p,B的概率是1-p。这类试验后来被称为伯努利试验

如果我们做100次抛硬币的试验,这时你会发现,80%的情况下,正面朝上出现了40~60次。

做1000次试验,在99.9%的情况下正面朝上的次数在400~600之间。

在一般情况下,如果进行N次这种简单的伯努利试验,那么事件A会发生多少次呢?

虽然我们感觉应该是总次数N乘以每次发生的概率p,但是实际上事件A发生多少次都是有可能的。当然发生N*p次的可能性最大,接下来发生N*p+1或者N*p-1次的可能性次之,然后向两头逐渐递减。

如果我们将它画成一条曲线,就是中间高两头低的曲线。满足这种曲线的概率分布,被称为伯努利分布,也称为二项式分布,因为每一次试验的结果有两种。

在数学上,有两个非常准确的概念来定量描述“鼓”和“平”的差别。

第一个概念就是平均值或者叫做数学期望值,也就是N*p,因为概率是p的事件进行N次试验后,平均发生的次数,也是最可能发生的次数,

第二个概念就是平方差(简称方差),方差其实是对误差的一种度量,既然是误差,就要有可对比的基点,在概率中,这个基准点就是数学期望值(简称期望值),也就是我们通常说的平均值。比如说,做10次抛硬币的试验,平均值就是5次正面朝上,5就是基点。

如果我们做10次试验只出现4次正面朝上的情况,就有了误差,误差是1。如果9次正面朝上,那么误差就大了,就是4。好了,接下来我们就把各种误差,和产生那些误差的可能性一起考虑,做一个加权平均,算出来的“误差”就是平方差。

伯努利试验或者其它类似的试验,试验的次数越多,方差和标准差越小,概率的分布越往平均值N*p的位置集中。显然,在这种情况下,你用A发生的次数,除以试验次数N,当作A发生的概率,就比较准确。

反之,试验的次数越少,概率分布的曲线就越平,也就是说A发生多少次的可能性都存在,这时你用A发生的次数,除以试验次数N,当作A发生的概率,误差可能会很大。

这里我们也可以得出一个结论:

有关不确定性的规律,只有在大量随机试验时才显现出来,当试验的次数不足,它则显现出偶然性和随意性。

有了方差的概念,我们就能定量分析“理想”和现实的差距了。什么是理想呢?我们进行N次伯努利试验,每一次事件A发生的概率为p,N次下来发生了N*p次,这就是理想。那么什么是现实呢?由于标准差的影响,使得实际发生的次数严重偏离N*p,这就是现实。

比如,在生活中,很多人觉得某件事有1/N发生的概率,只要他做N次,就会有一次发生,这只是理想。事实上,越是小概率事件,理想和现实的差距越大。比如说一件事发生的概率为1%,虽然进行100次试验后它的数学期望值达到了1,但是这时它的标准差大约也是1,也就是说误差大约是100%,因此试了100次下来,可能一次也没有成功。

如果你想确保获得一次成功怎么办呢?你大约要做260次左右的试验,而不是100次。这里面的数学细节我们就不讲了,大家记住这个结论就好,就是越是小概率事件,你如果想确保它发生,需要试验的次数比理想的次数越要多得多。

比如买彩票这种事情。你中奖的概率是一百万分之一,你如果要想确保成功一次,恐怕要买260万次彩票。你即使中一回大奖,花的钱要远比获得的多得多。因此,了解了标准差,就该懂得人为什么不要去赌。这是我们在认知方面要了解的第一个知识点。

我们要了解的第二个知识点是,提高单次成功率要远比多做试验更重要。假如你有50%的成功可能性,你基本上尝试4次,就能确保成功一次,当然理想状态是尝试两次。为了保险起见,要多做100%的工作。但是如果你只有5%的成功可能性,大约需要50次才能确保成功一次,而不是理想状态中的20次。为了保险起见,要多做150%的工作。

概率论证明了,凡事做好充足的准备,争取一次性成功,这要远比不断尝试小概率事件靠谱得多。

当然还有另一类特殊的伯努利试验,可以进一步完善我们对随机性的认识,特别是对风险防范的认识。

在这一类伯努利试验里,随机事件A发生的概率通常很小,但是试验的次数n很大,比如发生车祸的情况便是如此,这种分布被称为泊松分布。

泊松分布是这样定义的:如果随机事件A发生的概率是p,进行n次独立的试验,恰巧发生了k次,则相应的概率可以用这样一个公式来计算:

泊松分布概率公式

由于泊松分布的内容稍微有点多,我这里就直接说结论,想知道的可以自己百度。


结论一:由于随机性的作用,我们在准备资源时,达到平均值还是不够的,需要准备一些冗余量。

结论二:池子越大,越能抵消随机性带来的误差。

这方面,可以看保险公司怎么做的。

泊松分布描述的是概率非常小的情况下的统计规律性。接下来我们来正确认识大概率事件——高斯分布(亦称正态分布)

与泊松分布那样的小概率事件相对,如果一个事件A发生的概率非常大,等于或者接近1/2(当p大于1/2时,1-p小于1/2,我们把p和1-p互换,依然只要研究p小于1/2的情况),同时试验次数n也非常大,会是什么结果呢?

我们假定事件A经过n次试验后发生了k次,把k的概率分布图画一下,就得到了一个中间鼓起,像倒扣的钟一样的对称图形。

正态分布

下面用一个例子来说明均值、标准差,和发生概率三者之间的关系。

假如有两个班,一班的考试成绩在60~100分之间变化,均值(平均分)为80分。二班的成绩在70~100分之间变化,均值为85分。那我们能说二班比一班成绩好吗?

哪个班成绩更优秀


根据我们的经验,同学们的成绩通常分布在平均分附近的比较多,特别好或者特别差的很少,

那么我们有多大把握说明平均分85分的二班一定比80分的一班强呢?这就要看两个班成绩的平均浮动范围了,这就是我们所说的标准差。这个数值其实就类似方便面包装袋上标的净重60克,后面还会标一个“+-1”克,这个1就是标准差。

如果两个班的标准差都是5分,一班的真实成绩也+-5,大致就是在75到85分的范围内浮动,二班的成绩是在80到90分的范围浮动。在这两个浮动范围重叠的部分,我们无法判断哪个班成绩更好。这个重叠区域,即图中红色的区域,表示我们无法作出判断的情况,这个区域的面积,就是我们无法作出判断的概率。

具体到这个图中,红色区域的面积占了两条曲线所覆盖面积的65%。也就是说,有65%的可能性,我们没法说哪一个班的成绩好。或者说,我们只有大约35%的信心,证明第二个班的成绩比第一个班好。这种信心通常被称为置信度。

从这个例子中我们可以看出,两个班平均分差五分,如果标准差也是5分,我们并没有足够的证据说明哪个班成绩更好。那么在什么情况下能证明,平均分85分的二班,就比平均分80分的一班学得好呢?

那就是减少标准差。当标准差????降低到只有1时,这两个班成绩的概率分布大致如下图,重叠的部分只占面积的5%。这时我们大约有95%的信心说二班比一班好。其实这个很好理解,从分布图来看,标准差越大,分布图越扁平,重合面积就越大; 标准差越小,分布越 "瘦高",两部分的重合面积就越小,我们就越有把握判断哪个在横轴上的分数越高。

见图

鉴于有点复杂,我就直接说作者结论了。

如果一个随机变量的取值符合高斯分布,它有大约68%的可能性,动态范围不超过平均值加减标准差????。这时我们说,在一个标准差之内,我们对平均值的置信度为68%。

比如在上面的例子中,一班的平均成绩为80分,标准差为5分,于是我们有68%的置信度说,考虑到随机性的影响,这个班的平均成绩应该落在75~85分之间,而不是之外。

如果我们把允许的误差的范围放大一点,放大到正负两倍的标准差,那么有大约95%的情况,这个随机变量的动态范围不超出平均值加减两倍的标准差,或者说,我们有95%的置信度相信这一点。

做科学实验时,通常需要有95%的置信度,否则大家觉得不踏实。当然,如果我们进一步扩大误差范围到三倍的????,那么置信度就提高到99.7%。在要求极高的实验中,我们甚至会要求更高。

这个规则适合于任何高斯分布,我们通常称之为“三????原则”或者“68-95-99.7原则”。平时大家记住带有随机性质的结论,需要有95%的置信度就好了。算了,我直接上图吧!

三????原则

图中曲线和x轴之间的面积,就是曲线的积分,面积的大小就代表了高斯分布在某个范围内的概率。

关于3????法则,大家记住一个要点:

有随机性的结论,需要有95%的置信度就好。

到目前为止,前面讲的和概率有关的随机试验都是独立的,前后不相关。

但是世界上很多随机事件的发生是彼此相关的,比如今天的天气就和昨天的天气有关,在一句话中,某个词是否出现,和上一个词其实也有关。

比如汉语拼音tian qi,在不考虑音调时,可以是“天气”,也可以是中药“田七”。如果没有上下文,“天气”出现的可能性恐怕是中药“田七”的上千倍。但是如果我特别强调它前面一个词汇是“中药”,那么后面这个词汇是“田七”的可能性就比“天气”大得多。

可见,在一个特定条件下,某个随机事件发生的概率,和通常它发生的概率有很大区别,这种在某个特定条件下发生的概率,就是条件概率。对于几乎所有的随机事件来讲,条件概率由于条件的存在,它通常不等于本身的概率。

比如说,“天气”这个词在汉语中出现的概率,用P(天气)来表示,可能是千分之一(0.1%),而“田七”的概率P(田七)只有百万分之一(0.0001%),但是如果前面一个词是“中药”,“天气”的概率就降低到十万分之一了,而“田七”的概率则上升到百分之一了。

这时候的概率我们称之为条件概率,“中药”这个词就是后面出现什么词的条件。一般我们把条件概率写成P(天气|中药)的形式。

条件概率在认知上有非常重要的意义。你从上面的例子中可以看出,考虑不考虑条件,两个随机事件发生的概率可以差出很多数量级,原来不可能发生的事情,就极可能会发生,原来以为是大概率的事情,可能根本就不会发生。

很多人学习别人的经验,用到自己身上就不灵了,原因就是没有搞清楚条件。另一方面,有些原来大家认为不可能做成的事情,一旦条件具备,就成为了大概率事件。

直接上公式吧!条件概率公式:

P(Y|X)=P(X,Y)/P(X)

【注:一件事Y在条件X下发生的条件概率P(Y|X),等于条件X,和这件事Y一同发生的联合概率P(X,Y),除以条件X的概率P(X)。】

现在我们把这个式子变形就是贝叶斯公式,写成:

P(X,Y)=P(Y|X)*P(X)

(注:可以理解成X和Y一同发生的概率,就是X发生的概率,乘以在X条件下Y发生的概率。)

贝叶斯公式告诉我们。凡事要讲究条件,比方说同样是感染发烧的症状,小儿、老人就大不同,卧床的老人首先要想到褥疮和肺炎,小儿则是上呼吸道、肠胃和泌尿道感染,除此之外,发烧的型态也能帮助推敲,给医师第一时间猜想的疾病,病历上称作 Impression,简单来说就是对疾病表现的第一印象,接着再以猜想去安排检查,去除掉不可能的就是答案。在条件下做事,是面对复杂问题的快速决策法。

概率是统计的智慧结晶。有时隐藏变化,在正态分布中暗潮汹涌;有时限缩范围,在前提条件下聚焦答案。


好啦!以上就是我在《数学通识》学到的和收获到的,不得不说真的是太烧脑了,到现在我也最多是大概了解了一下,日后还需要多多回顾。

推荐阅读