牛莱公式/格林公式/高斯公式/斯托克斯公式的本质,其实就是把对“区域”的积分转化为对“边界”的积分。而这个本质的基础在于,对于二线二面来说,被积函数是拥有方向的,所以在对它们的积分“区域”积分时,被积函数其实会在被积“区域”内部的无数个“小区域”边界上相互抵消,最终只剩下被积区域的边界,表现形式即为上述四个公式。(明年再写证明🕊)


“先一后二”本质是,把 x,y 当常数,对 z 积分,此时得出的结果是垂直于 xoy 平面且随 xy 变化而变化的线质量积分值,故“先一”得到的积分值是一个关于 xy 的函数(而普通一重定积分得出的是具体值)。另外从这点可以很容易理解,计算“先一”时上下限必然是关于 x,y 的变量并且是通过把积分区域方程的 z 用 xy 表示来得出的,这里可以参考前文所述来理解上下限的含义,不再赘述。之后再“对二积分”,但此时的被积函数从几何意义的角度看已经变了,它的实质从表示一个空间区域内每一点的密度值,变成了表示线质量在该空间区域投影在 xoy 平面上的投影区域内每一点的值,故可以看出,“后二”时积分区域一定是三重积分的积分区域在 xoy 平面上的投影区域,之后就是二重积分的工作了,且“先二后一”的理解完全同理,可以自行思考。同样,可以用以上思路去理解二重积分化为累次积分过程的实质,以及为何二重积分时 X 型区域只能先 x 后 y 而 Y 型区域只能先 y 后 x,懒得写了哈哈哈。


贝叶斯定理的本质是根据新事件(即新证据)对原事件概率(即先验概率)进行更新:
$$\begin{aligned} P(原|新)&= \dfrac{P(原\cap新)}{P(新)} \\ &= \dfrac{P(原)P(新|原)}{P(原)P(新|原)+P(\neg原)P(新|\neg原)} \end{aligned}$$为了进一步说明公式的本质,假设总样本空间为 $\Omega$,则贝叶斯公式的作用就是在新事件限定后的样本空间 $\Omega_{small}$ 里重新计算原事件概率,即 $P(原|新)$。而需要重新计算的原因在于新事件限定后,$原事件$ 符合新事件的程度和 $¬原事件$ 符合新事件的程度是不一样的,即在限定后的样本空间 $\Omega_{small}$ 中符合新事件的样本空间比例 $原_{small}:¬原_{small}$ 不等于限定前的 $原:¬原$,故而导致了新事件对原事件概率的更新,而计算更新后的概率公式即为贝叶斯公式,用白话文翻译一下即为下式:$$\begin{aligned} P(原|新) &= \dfrac{原_{small}}{\Omega_{small}} \\ \\ &=\dfrac{在原中,新的概率}{在原中,新的概率 + 在¬原中,新的概率} \end{aligned}$$要想深入理解贝叶斯公式的精髓,一定要理解新事件的作用其实是用于更新原概率的“证据”,如果仍觉得难以理解,找个练习题用画图的方法感受一下就行。

题外话,根据上面的描述,有人可能发现贝叶斯公式的右边也可以写成下面这样:$$P(原|新)=\dfrac{P(新)P(原|新)}{P(新)P(原|新)+P(新)P(\neg原|新)}$$白话文即:$$\dfrac{在新中,原的概率}{在新中,原的概率 + 在新中,¬原的概率}$$但这样写虽然等式成立,可这个式子,呃,好像一点意义都没有……而贝叶斯公式里写成类似“$P(原)P(新|原)$”这种表述的意义则在于,在需要使用贝叶斯的场景下,这种表述的概率根据已知内容往往是易于计算的,其中“$P(新|原)$”在在贝叶斯定理里有一个单独的名字: “似然”。

再次题外话,P(AB)和 P(A|B)描述的其实都是 A 和 B 的交集 C,只不过 P(AB)是从全集的角度出发描述 C,而 P(A|B)则是从子集 B 出发描述交集 C,也就是说,设全集为 Ω,则P(AB)= P(C|Ω),P(A|B)= P(C|B)。从这个角度理解,条件概率的公式 P(A|B)= P(AB)/P(B)就很容易理解了,其中的P(B)起的即是限制作用。另外,其实可以用条件概率的公式推出贝叶斯公式,不再赘述。