人生中最重要的問(wèn)題,在絕大多數(shù)情況下,真的就只是概率問(wèn)題。--- 皮埃爾-西蒙·拉普拉斯(1749-1827)高手只所謂稱為高手是因?yàn)樗麄兛傆幸恍└H瞬灰粯拥牡胤交蛟S就是走路的姿勢(shì)更利于健身之類的,其實(shí)都是細(xì)節(jié)處成就的。
先講一個(gè)真實(shí)的故事。
我的一個(gè)夫妻朋友有了二胎,由于太太年齡較大,所以醫(yī)生警告說(shuō),你們的孩子有可能會(huì)得唐氏綜合癥。朋友很緊張,那怎么辦?醫(yī)生說(shuō),可以做羊水穿刺,以確診是不是真的得了。朋友很開(kāi)心。不過(guò)呢,醫(yī)生又說(shuō),羊水穿刺也有可能會(huì)失敗,那樣你們的孩子就沒(méi)了。這下朋友糾結(jié)了,一邊是唐氏綜合癥,一邊是孩子沒(méi)了,這可怎么做決定?
醫(yī)生后來(lái)又說(shuō),高齡產(chǎn)婦得唐氏綜合癥的概率大約是2%,羊水穿刺檢測(cè)失敗的概率大約是1%。這下簡(jiǎn)單了,堅(jiān)決不做啊。
所以,我們發(fā)現(xiàn),一旦知道了某件事情發(fā)生的準(zhǔn)確概率,我們的決定就瞬間簡(jiǎn)單了起來(lái)。但問(wèn)題是,我們?cè)趺茨苤肋@些概率呢?
很多人覺(jué)得所謂的概率,都是計(jì)算出來(lái)的。一枚硬幣,正反面各50%,一個(gè)袋子里100個(gè)球,30個(gè)黑球,70個(gè)紅球 ,摸出一個(gè)紅球的概率是70%。
那假設(shè)一個(gè)黑盒子,你事先不知道里面多少黑球,多少紅球,怎么辦呢?其實(shí),現(xiàn)實(shí)世界里,我們面臨的絕大多數(shù)情況都沒(méi)法計(jì)算,都是黑盒子卻需要去判斷概率的問(wèn)題。
頻率派和貝葉斯派
傳統(tǒng)的方法叫頻率派。關(guān)于頻率和概率的區(qū)別,很多人不熟悉。簡(jiǎn)單的說(shuō),概率說(shuō)的是事情未來(lái)發(fā)生的可能性,而頻率說(shuō)的是對(duì)某事情進(jìn)行觀察或者實(shí)驗(yàn),發(fā)生的次數(shù)和總次數(shù)的比值。概率是事情本身的一個(gè)固有屬性,是一個(gè)固定值,而頻率是變化的,樣本越大,頻率越接近概率。根據(jù)大數(shù)定理,當(dāng)樣本無(wú)窮大時(shí),頻率等于概率。
你拋硬幣10次,不見(jiàn)得會(huì)正面反面各5次,但是你拋1萬(wàn)次,那基本是正反各50%。比如那個(gè)黑盒子,你不斷的從里面隨機(jī)的拿球出來(lái),統(tǒng)計(jì)黑球和紅球的比例,次數(shù)“足夠多”時(shí),你得到的那個(gè)頻率,就接近真實(shí)的概率。
這個(gè)方法用了上百年,現(xiàn)在仍然被廣泛使用,比如某某疾病的發(fā)病率,飛機(jī)和火車的出事概率等等 ,都是利用大樣本的統(tǒng)計(jì),逼近真實(shí)概率。
但是,我們稍微深入的思考一下,就會(huì)發(fā)現(xiàn)這個(gè)方法的兩個(gè)局限:第一,你只有積累了一定數(shù)量的樣本,才能有一個(gè)對(duì)概率的初步判斷,你只扔5次,只取10個(gè)球,基于小樣本得出的概率很可能錯(cuò)的離譜。第二,如果這個(gè)黑盒子夠黑,你連里面總共有多少個(gè)球都沒(méi)概念,甚至里面的球的總數(shù)量都是變化的,這時(shí)你就沒(méi)法判斷什么叫“足夠多”。
現(xiàn)實(shí)世界里,我們碰到的大量問(wèn)題,根本找不到這么多現(xiàn)成的數(shù)據(jù)。還有很多新興事物,壓根沒(méi)有先例,一種新發(fā)現(xiàn)的疾病,一個(gè)新的產(chǎn)品,一種新的市場(chǎng)策略,那怎么判斷概率呢?瞎蒙嗎?
也對(duì),也不對(duì)。
這就需要貝葉斯學(xué)派了。
貝葉斯學(xué)派的觀點(diǎn)是,概率是個(gè)主觀值,完全就是我們自己的判斷,我可以先估計(jì)一個(gè)初始概率 ,然后每次根據(jù)出現(xiàn)的新情況,掌握的新信息,對(duì)這個(gè)初始概率進(jìn)行修正,隨著信息的增多,我就會(huì)慢慢逼近真實(shí)的概率。這個(gè)方法完美的解決了頻率派的兩個(gè)問(wèn)題,我不用等樣本累積到一定程度,先猜一個(gè)就行動(dòng)起來(lái)了,因?yàn)槲矣行拚蠓,而且我也不關(guān)心是不是“足夠多”,反正我一直在路上。
貝葉斯學(xué)派誕生兩百多年來(lái),一直倍受爭(zhēng)議,甚至連co-founder拉普拉斯自己都放棄了,因?yàn)榇蠹矣X(jué)得這個(gè)摸著石頭過(guò)河的方法太扯了,太不科學(xué)了。直到最近幾十年,隨著計(jì)算機(jī)技術(shù)的進(jìn)步才大放異彩,現(xiàn)在的人工智能、圖像識(shí)別、機(jī)器翻譯等,背后無(wú)不采用了貝葉斯方法。
那我們需要看看,貝葉斯方法究竟是怎么摸著石頭過(guò)河的。
貝葉斯定理(Bayes' Theorem)
這一部分涉及一些數(shù)學(xué)公式和計(jì)算,但說(shuō)實(shí)話 ,只需要小學(xué)算術(shù)水平就可以了。
貝葉斯定理如下:
A是你要考察的目標(biāo)事件,P(A) 是這個(gè)目標(biāo)事件的先驗(yàn)概率,又叫初始概率,或者基礎(chǔ)概率。B是新出現(xiàn)的一個(gè)新事件。P(A|B) 的意思是當(dāng)B出現(xiàn)時(shí)A的概率,在這里就是我們需要的后驗(yàn)概率。P(B|A) 是當(dāng)A出現(xiàn)時(shí)B的概率。P(B) 是B出現(xiàn)的概率,在這里具體計(jì)算稍微復(fù)雜一些,指當(dāng)A出現(xiàn)時(shí)B的概率和當(dāng)A不出時(shí)(用A_來(lái)表示)時(shí)B的概率的總和,用公式表達(dá)就是 P(B) = P(B|A) * P(A) + P(B|A_) * P(A_)。P(B|A) / P(B) 可以看作一個(gè)修正因子。
上述解釋你可以忽略,簡(jiǎn)化的理解為:
后驗(yàn)概率 = 先驗(yàn)概率 x 修正因子
舉個(gè)例子。
比如你新進(jìn)入一家公司,你不確定這里MBA學(xué)歷對(duì)員工升遷的作用,而這個(gè)對(duì)你的個(gè)人發(fā)展很重要,因?yàn)槟阋獩Q定接下來(lái)是不是去讀一個(gè)MBA學(xué)位。由于新來(lái),壓根沒(méi)有樣本,這時(shí)候你可以采用貝葉斯定理。
P(A) 是你根據(jù)過(guò)往經(jīng)驗(yàn)事先估計(jì)的,MBA對(duì)升遷有多大好處?比如你先預(yù)估一個(gè)30%。這時(shí)候,出現(xiàn)了一個(gè)新信息B,小王升遷了,而且小王是MBA。那么,P(B|A) 是說(shuō)當(dāng)MBA管用時(shí),小王升遷的概率,比如你現(xiàn)在的判斷是80%。小王可能本身就有能力且業(yè)績(jī)突出,就算沒(méi)有MBA也可能會(huì)升遷啊,所以P(B|A_) = 50%(發(fā)現(xiàn)了嗎,這個(gè)公式自動(dòng)的幫助我們避免走極端)。
套入貝葉斯公式,P(A|B) = 30% * 80% / (80% * 30% + 50% * 70%) = 41%。從30%提高到了41%。那么當(dāng)小王升遷這個(gè)新情況出現(xiàn)以后,你對(duì)MBA作用的概率判斷從30%提高到了41%。
但是,過(guò)了段時(shí)間,你發(fā)現(xiàn)同樣是MBA的小李,熬了很多年也沒(méi)有升遷,最后辭職了,F(xiàn)在你對(duì)小李因?yàn)镸BA有效而升遷的概率判斷降為20%了。套入公式,新的P(A|B) = 41% * 20% / (20%*41% + 50%*59%) = 22%。從剛才的41%跌了近一半。
這樣幾次下來(lái),你就能對(duì)這個(gè)這家公司對(duì)MBA的看法有個(gè)相對(duì)靠譜的判斷了。
或許你會(huì)說(shuō),搞這么復(fù)雜干嘛,有了新情況,我原來(lái)的看法會(huì)改變,新情況和自己的預(yù)期一致就強(qiáng)化原來(lái)的看法,否則就弱化,這不就是常識(shí)嗎,還用得著什么數(shù)學(xué)定理嗎?
很好,的確一針見(jiàn)血。拉普拉斯說(shuō)過(guò),所謂的概率就是把人們的常識(shí)用數(shù)學(xué)表達(dá)出來(lái)。也有人說(shuō),人腦就是采用貝葉斯方法來(lái)工作的。
但是我們?nèi)四X有偏差啊,有誤區(qū)啊,會(huì)犯渾啊,這個(gè)公式讓我們忽然獲得了一個(gè)上帝視角,來(lái)審視一下,我們自己究竟是怎么做判斷,做決定的,計(jì)算機(jī)又是怎么模仿并超越我們的,這豈不是很美妙的一件事情 。
讓我們?cè)賮?lái)看一個(gè)復(fù)雜一點(diǎn)的例子,這是一個(gè)經(jīng)典的案例 ,網(wǎng)上隨處都可以找到。
艾滋病毒(HIV)檢測(cè)技術(shù)的準(zhǔn)確度相當(dāng)驚人。如果一個(gè)人真是HIV陽(yáng)性,血液檢測(cè)的手段有99.9%的把握把他這個(gè)陽(yáng)性給檢查出來(lái)而不漏網(wǎng)。如果一個(gè)人不攜帶HIV,那么檢測(cè)手段的精度更高,達(dá)到99.99%——也就是說(shuō)只有0.01%的可能性會(huì)冤枉他。已知一般人群中HIV攜帶者的比例是0.01%,F(xiàn)在假設(shè)我們隨便在街頭找一個(gè)人給他做檢查,發(fā)現(xiàn)檢測(cè)結(jié)果是HIV陽(yáng)性,那么請(qǐng)問(wèn),這個(gè)人真的攜帶HIV的可能性是多大呢?
我們使用貝葉斯定理。A表示“這個(gè)人真的攜帶HIV”,B表示“檢測(cè)出HIV”,那么根據(jù)現(xiàn)有條件,P(A) = 0.01%,P(B|A) = 99.9%,P(B|A-) = 0.01%,帶入公式,計(jì)算得到P(A|B) = 0.01% * 99.9% * (99.9%*0.01% + 0.01%*99.99%) = 50%!
答案或許和你的直覺(jué)不一致,即使在這么驚人的檢測(cè)準(zhǔn)確度之下,哪怕這個(gè)人真的被檢測(cè)到HIV陽(yáng)性,他真有HIV的可能性也只有50%。
我們看到,如果是一種非常罕見(jiàn)的病毒,人群中只有萬(wàn)分之一的人感染,在這種情況下即使你的檢測(cè)手段再高,也很有可能會(huì)冤枉人。甚至,如誤診率不是0.01%,而是0.1%的話,也就是檢測(cè)手段再差一檔,這個(gè)結(jié)果就會(huì)瞬間從50%降到9%。但是,我們也可以反過(guò)來(lái)想 ,這么罕見(jiàn)的疾病,一旦被檢測(cè)出來(lái)了,也有50%的概率真的會(huì)得,這個(gè)躍遷是從萬(wàn)分之一,一下子到了50%。而如果我們假設(shè)這個(gè)病毒的感染率不是萬(wàn)分之一,而是千分之一,那么在原來(lái)的檢測(cè)精度下,可能性就從50%升到了90%。
這其實(shí)可以解釋為什么我們說(shuō)一葉知秋,為什么說(shuō)當(dāng)你家發(fā)現(xiàn)了一只蟑螂,那么你家里一定已經(jīng)有很多蟑螂了。罕見(jiàn)事件,可以對(duì)初始概率做出數(shù)量級(jí)的改變。同時(shí),這也解釋了我們有時(shí)也不能反應(yīng)過(guò)度,有人叛逃到國(guó)外了,我們難道需要徹底關(guān)閉海關(guān)嗎?真的需要在墨西哥修建長(zhǎng)城嗎?
貝葉斯定理,把我們的思考的方式給撕開(kāi)了,揉碎了。
貝葉斯定理給我們的啟示
塔勒布說(shuō)過(guò),數(shù)學(xué)不僅僅是計(jì)算,而是一種思考方式。
現(xiàn)實(shí)世界中,我們沒(méi)法時(shí)時(shí)刻刻拿出電腦來(lái)演算一下公式,但是我們?nèi)匀豢梢酝ㄟ^(guò)這個(gè)定理得到一些寶貴的啟示:
1、先行動(dòng)起來(lái)。
大膽假設(shè),小心求證。不斷調(diào)整,快速迭代。這就是貝葉斯方法。
當(dāng)信息不完備時(shí),對(duì)概率的判斷沒(méi)有把握時(shí),當(dāng)然可以選擇以靜制動(dòng),但是不行動(dòng)也是有代價(jià)的,你可能會(huì)錯(cuò)過(guò)時(shí)機(jī),你也沒(méi)有機(jī)會(huì)進(jìn)步。這個(gè)時(shí)候,貝葉斯方法給我們提供了一個(gè)很好的思路,先做一個(gè)預(yù)判,動(dòng)起來(lái),利用新的信息不斷修正原來(lái)的預(yù)判。
2、聽(tīng)人勸、吃飽飯,但又不能聽(tīng)風(fēng)就是雨。
當(dāng)我們沒(méi)有把握時(shí),我們很容易根據(jù)新信息調(diào)整看法。更大的挑戰(zhàn)是,我們已經(jīng)形成了一個(gè)看法,甚至有了成功經(jīng)驗(yàn)時(shí),當(dāng)新情況出現(xiàn)后,我們能不能也去調(diào)整自己看法。那個(gè)黑盒子,我們摸索了一段時(shí)間,估計(jì)出了里面紅球、黑球的概率,但是我們有沒(méi)有想過(guò),這個(gè)黑盒子里的球的比例會(huì)變化呢?
有了新信息,我們要對(duì)原來(lái)的看法做多大程度的修正呢?
這些,不可能有標(biāo)準(zhǔn)答案,但是明白了這個(gè)道理,有助于我們及時(shí)又謹(jǐn)慎的做出調(diào)整。
3、初始概率很重要。
初始概率越準(zhǔn)確,我們就能越容易、越快速的得到真實(shí)的概率。疑鄰盜斧,以貌取人,會(huì)讓我們離真相越來(lái)越遠(yuǎn)。而如何獲得相對(duì)靠譜的初始概率,是個(gè)硬功夫,它需要你的經(jīng)驗(yàn)、人脈、平時(shí)的深度思考,有時(shí)甚至和底層的價(jià)值觀、思維方式都有關(guān)。
丹尼爾.卡尼曼在他的《思考,快與慢》里,就特地強(qiáng)調(diào)了初始概率對(duì)貝葉斯方法的重要性。
4、對(duì)出現(xiàn)的特殊情況要引起足夠的重視。
前面我們已經(jīng)看到了,萬(wàn)分之一概率的事情,也有可能因?yàn)樘厥馐录,一下子變成?0%。所以,每當(dāng)出現(xiàn)特殊的、罕見(jiàn)的情況時(shí),我們要保持高度警惕,黑盒子里的球的比例是不是變化了?但同時(shí)我們也看到,如果檢測(cè)精度不夠高,即便出現(xiàn)了罕見(jiàn)事件,真實(shí)概率也可能不到10%。所以,具體要怎么采取行動(dòng),還需要進(jìn)一步觀察。
5、信息的收集,信息的質(zhì)量,以及對(duì)信息的判斷,是提高決策水平的最重要環(huán)節(jié)。
只要有新信息,就可以修正,哪怕初始判斷錯(cuò)了,新信息足夠多,也能修正過(guò)來(lái)。但是沒(méi)有信息,就沒(méi)有修正。所以,在做決定之前,盡可能多的收集信息是必須的。但是錯(cuò)誤的信息、低質(zhì)量的信息,會(huì)讓你的修正偏離真相越來(lái)越遠(yuǎn),你能不能區(qū)分信息來(lái)源的可靠性、能不能進(jìn)行交叉驗(yàn)證、邏輯推理,就顯得至關(guān)重要。
要做到這些,甚至某一些,都并不容易,掌握里面的平衡,就更加困難。
所謂高手,就是把自己活成了貝葉斯定理。
來(lái)源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問(wèn)題,請(qǐng)聯(lián)系我們及時(shí)刪除。