正確理解泊松分布
很多人在上概率論這門(mén)課的時(shí)候就沒(méi)搞明白過(guò)泊松分布到底是怎么回事,至少我就是如此。雖然那個(gè)時(shí)候大家都會(huì)背“當(dāng)試驗(yàn)的次數(shù)趨于無(wú)窮大,而乘積np固定時(shí),二項(xiàng)分布收斂于泊松分布”,大部分的教科書(shū)上也都會(huì)給出這個(gè)收斂過(guò)程的數(shù)學(xué)推導(dǎo),但是看懂它和真正的理解還有很大距離。如果我們學(xué)習(xí)的意義是為了通過(guò)考試,那么我們大可停留在“只會(huì)做題”的階段,因?yàn)樵嚲砩喜粫?huì)出現(xiàn)“請(qǐng)發(fā)表一下你對(duì)泊松公式的看法”這樣的題目,因?yàn)槟菢右粊?lái)卷子就變得不容易批改,大部分考試都會(huì)出一些客觀題,比如到底是泊松分布還是肉松分布。
而如果我們學(xué)習(xí)的目的是為了理解一樣?xùn)|西,那么我們就有必要停下來(lái)去思考一下諸如“為什么要有泊松分布?”、“泊松分布的物理意義是什么?”這樣的“哲學(xué)”問(wèn)題。
如果我們要向一個(gè)石器時(shí)代的人解釋什么是電話,我們一定會(huì)說(shuō):“電話是一種機(jī)器,兩個(gè)距離很遠(yuǎn)的人可以通過(guò)它進(jìn)行交談”,而不會(huì)說(shuō):“電話在1876 年由貝爾發(fā)明,一臺(tái)電話由幾個(gè)部分構(gòu)成……”(泊松分布在 1876年由泊松提出,泊松分布的公式是……)所以我們問(wèn)的第一個(gè)問(wèn)題應(yīng)該是“泊松分布能拿來(lái)干嘛?”
泊松分布最常見(jiàn)的一個(gè)應(yīng)用就是,它作為了排隊(duì)論的一個(gè)輸入。什么是排隊(duì)論?比如我們?nèi)ッ刻焓程么蝻垼铑^疼的一個(gè)問(wèn)題就是排隊(duì),之所以要排隊(duì)是因?yàn)槭程么蝻埖拇笫逵邢?,假設(shè)學(xué)校有1000 個(gè)學(xué)生,而食堂恰好配了 1000個(gè)大叔和打飯的窗口,那么就永遠(yuǎn)不會(huì)有人排隊(duì)。但是出于經(jīng)營(yíng)成本方面的考慮食堂通常不會(huì)這么干,因此如何控制窗口的數(shù)量并且保證學(xué)生不會(huì)因?yàn)榕抨?duì)時(shí)間太長(zhǎng)而起義是一門(mén)很高深的學(xué)問(wèn)。
在一段時(shí)間 t(比如 1 個(gè)小時(shí))內(nèi)來(lái)到食堂就餐的學(xué)生數(shù)量肯定不會(huì)是一個(gè)常數(shù)(比如一直是 200人),而應(yīng)該符合某種隨機(jī)規(guī)律:比如在 1 個(gè)小時(shí)內(nèi)來(lái) 200 個(gè)學(xué)生的概率是 10%,來(lái) 180 個(gè)學(xué)生的概率是20%……一般認(rèn)為,這種隨機(jī)規(guī)律服從的就是泊松分布。
也就是在單位時(shí)間內(nèi)有 k 個(gè)學(xué)生到達(dá)的概率為:
其中 為單位時(shí)間內(nèi)學(xué)生的期望到達(dá)數(shù)。
問(wèn)題是“這個(gè)式子是怎么來(lái)的呢?”——我們知道泊松分布是二項(xiàng)分布滿足某種條件的一個(gè)特殊形式,因此可以先從簡(jiǎn)單的二項(xiàng)分布入手,尋找兩者之間的聯(lián)系。
二項(xiàng)分布很容易理解,比如一個(gè)牛仔一槍打中靶子的概率是 p,如果我們讓他開(kāi) 10 槍?zhuān)绻繐糁幸淮文繕?biāo)就得 1分,問(wèn)他一共能得幾分?雖然我們不能在牛仔射擊前準(zhǔn)確地預(yù)測(cè)出具體的得分 k,但可以求出 k 的概率分布,比如 k = 9 的概率是50%,k = 8 分的概率是 30%……并且根據(jù) k 的分布來(lái)判斷他的槍法如何,這便是概率統(tǒng)計(jì)的思想。
具體計(jì)算的方法就是求出“得 k 分”的概率。比如“得 9 分”可以是“射失第 1 發(fā),而命中其余的 9 發(fā)”,它的概率是 p 的9 次方乘上 1 - p。
X O O O O O O O O O
O X O O O O O O OO
O O X O O O O O O O
......
根據(jù)組合數(shù)性質(zhì),在 種情況下,牛仔都可以得到 9 分。因此牛仔“得 9 分”的概率 。
同理,“得 k 分”的概率就是 。而對(duì)于一個(gè)神槍手(p = 1)來(lái)講,他“得 10 分”的概率就是 1。
二項(xiàng)分布和泊松分布最大的不同是前者的研究對(duì)象是 n 個(gè)離散的事件(10次射擊),而后者考察的是一段連續(xù)的時(shí)間(單位時(shí)間)。因此泊松分布就是在二項(xiàng)分布的基礎(chǔ)上化零為整。
如果我們把單位時(shí)間劃分成 n個(gè)細(xì)小的時(shí)間片,假設(shè)在每個(gè)時(shí)間片內(nèi)牛仔都在射擊,只是這次他發(fā)射的不是子彈,而是學(xué)生——“命中目標(biāo)”就代表向食堂成功地發(fā)射出一個(gè)學(xué)生,如果“沒(méi)有命中”就表示學(xué)生被打到了食堂意外的其它地方。如果n不是無(wú)窮大,那么在某個(gè)時(shí)間片內(nèi)可能出現(xiàn)兩個(gè)學(xué)生同時(shí)進(jìn)入食堂的狀況,這樣的話就和我們假設(shè)任意的時(shí)間片內(nèi)之可能發(fā)生“有一個(gè)學(xué)生出現(xiàn)”或“沒(méi)有學(xué)生出現(xiàn)”不符,為了能用二項(xiàng)分布去近似泊松分布,因此n 必須趨向無(wú)窮,時(shí)間片必須無(wú)窮小,這也是為什么泊松分布的前提之一是“ n 很大”的原因?。硪粋€(gè)前提是“ p 很小”)
這樣一來(lái)我們就可以用二項(xiàng)分布的公式表示單位時(shí)間到來(lái) k 個(gè)學(xué)生的概率了。在單位時(shí)間內(nèi)發(fā)生 n次獨(dú)立的“發(fā)射學(xué)生”實(shí)驗(yàn),把學(xué)生“發(fā)射”到食堂的概率是 p:

那么單位時(shí)間內(nèi)食堂到來(lái) k 個(gè)學(xué)生的概率
把組合數(shù)展開(kāi),
上下同乘 ,
把 拆成 k 個(gè) p 連乘的形式放到左邊分子上,
調(diào)整 ,
因?yàn)?, ,
令 ,
這就是我們熟悉的泊松公式,其中 的物理意義是單位時(shí)間內(nèi)學(xué)生到來(lái)的數(shù)量,也就是平均到達(dá)率,是一個(gè)常數(shù)。
愛(ài)華網(wǎng)本文地址 » http://www.klfzs.com/a/25101017/362981.html
愛(ài)華網(wǎng)


