????一項(xiàng)研究對(duì)美國(guó)3 141個(gè)縣的腎癌發(fā)病率進(jìn)行了調(diào)查,調(diào)查顯示該病的分布模式很值得注意。發(fā)病率最低的縣差不多都位于中西部、南部和西部人口稀少的鄉(xiāng)村,這些區(qū)域按照慣例由共和黨管轄。對(duì)此,你有何看法??剛剛過(guò)去的幾秒鐘里,你的大腦處于非常活躍的狀態(tài),這主要是因?yàn)橄到y(tǒng)2在運(yùn)行。你謹(jǐn)慎地在記憶中搜尋著并作出假設(shè)。在這個(gè)過(guò)程中你也付出了一定的努力,你的瞳孔會(huì)擴(kuò)張,心跳會(huì)適度加快。系統(tǒng)1也沒(méi)有閑著,因?yàn)橄到y(tǒng)2的運(yùn)行需要從聯(lián)想記憶中獲取事實(shí)和建議。你很可能會(huì)否認(rèn)共和黨的政策提供了腎癌防控方法這個(gè)想法,卻會(huì)關(guān)注腎癌發(fā)病率低的縣大多是鄉(xiāng)村這個(gè)事實(shí)。這個(gè)例子是我從機(jī)智的統(tǒng)計(jì)學(xué)家霍華德·維納(Howard Wainer)和哈里斯·澤維林(Harris Zwerling)那兒得到的,他們對(duì)這一案例的評(píng)論是:“人們很容易作出推斷,認(rèn)為腎癌發(fā)病率低主要是由于鄉(xiāng)村的生活方式很健康—沒(méi)有空氣污染和水污染,食品沒(méi)有添加劑,保證新鮮?!边@一點(diǎn)完全說(shuō)得通。?現(xiàn)在,考慮一下腎癌發(fā)病率最高的縣的情況吧。假設(shè)這些易發(fā)病的縣差不多都位于中西部、南部和西部人口稀少的鄉(xiāng)村,這些區(qū)域按照慣例由共和黨管轄?;羧A德·維納和哈里斯·澤維林半開(kāi)玩笑地評(píng)論道:“人們可以很容易作出推斷,導(dǎo)致腎癌高發(fā)病率的直接原因是鄉(xiāng)村生活的貧困—醫(yī)療條件差、高脂肪飲食、酗酒、嗜煙等?!碑?dāng)然這種說(shuō)法肯定有問(wèn)題,因?yàn)猷l(xiāng)村生活方式不可能既是腎癌發(fā)病率高的原因又是其發(fā)病率低的原因。?問(wèn)題的關(guān)鍵并不在于這些縣處在鄉(xiāng)村地區(qū)或是由共和黨掌管,而在于鄉(xiāng)村地區(qū)人口少。我們通過(guò)這個(gè)例子學(xué)到的不是流行病學(xué)知識(shí),而是我們的大腦和統(tǒng)計(jì)數(shù)據(jù)之間的復(fù)雜關(guān)系。系統(tǒng)1非常擅長(zhǎng)一種思維模式—自動(dòng)且毫不費(fèi)力地識(shí)別事物之間的因果聯(lián)系,即使有時(shí)這種關(guān)系根本就不存在,它也會(huì)這樣認(rèn)定。當(dāng)聽(tīng)到腎癌高發(fā)地區(qū)的情況時(shí),你立刻會(huì)想當(dāng)然地認(rèn)為這些縣與其他縣不同是有原因的,一定有個(gè)理由可以解釋這種不同。然而,正如我們所見(jiàn),當(dāng)系統(tǒng)1面對(duì)“純統(tǒng)計(jì)學(xué)”的數(shù)據(jù)時(shí)是束手無(wú)策的,因?yàn)檫@些數(shù)據(jù)雖然可以改變結(jié)果出現(xiàn)的概率,卻不能直接導(dǎo)致結(jié)果的發(fā)生。?根據(jù)定義,一個(gè)隨機(jī)事件是不需要解釋的,但一連串的隨機(jī)事件就有規(guī)律可循。想象有一個(gè)裝有大理石彈球的甕,其中有一半的彈球是紅色的,另一半彈球是白色的。然后,再想象有一個(gè)非常有耐心的人(或一個(gè)機(jī)器人)隨意從甕中取出4個(gè)大理石球,記錄其中的紅球數(shù),再把球放回去,重復(fù)這樣的做法數(shù)次。總結(jié)記錄結(jié)果時(shí),你會(huì)發(fā)現(xiàn)“2紅2白”的結(jié)果出現(xiàn)的次數(shù)(幾乎剛好)是“4個(gè)全紅”或“4個(gè)全白”這種結(jié)果的6倍。這一倍數(shù)關(guān)系是個(gè)數(shù)學(xué)事實(shí)。你可以對(duì)這種從甕中反復(fù)抽樣的結(jié)果作出自信的預(yù)測(cè),就像你能預(yù)測(cè)到用錘子砸雞蛋的結(jié)果一樣。盡管你無(wú)法預(yù)見(jiàn)蛋殼破碎的具體細(xì)節(jié),但大概結(jié)果還是很確定的。兩件事的不同之處在于:你想到錘子砸雞蛋時(shí)感受到的那種明確的因果聯(lián)系,在甕中取樣的設(shè)想中是找不到的。?相關(guān)的統(tǒng)計(jì)學(xué)事實(shí)與癌癥那個(gè)例子也有聯(lián)系。兩個(gè)耐心的計(jì)數(shù)者輪流從甕中取大理石球,杰克每次拿出4個(gè)球,吉爾拿出7個(gè)。他們都記錄了每次拿到相同顏色彈球的次數(shù)—要么全白,要么全紅。如果他們?nèi)∏虻淖龇ǔ掷m(xù)的時(shí)間足夠長(zhǎng),杰克拿到同顏色大理石的次數(shù)會(huì)是吉爾的8倍(兩人的預(yù)期概率分別為12.5%和1.56%)。這個(gè)結(jié)果與錘子無(wú)關(guān),也與因果聯(lián)系無(wú)關(guān),這僅僅是一個(gè)數(shù)學(xué)上的事實(shí):一次拿4個(gè)彈球與一次拿7個(gè)相比,出現(xiàn)極端結(jié)果的概率更大。?現(xiàn)在,將美國(guó)人口想象成一個(gè)巨大的甕中的彈球。有些球上標(biāo)有KC(即Kidney Cancer的簡(jiǎn)稱(chēng))字樣,表示腎癌。你抽取彈球樣本,并依次按照所在縣擺放,你會(huì)發(fā)現(xiàn)鄉(xiāng)村地區(qū)的樣本要比其他地區(qū)的少。如同杰克和吉爾所做的那個(gè)游戲一樣,極端的結(jié)果(非常高或非常低的癌癥發(fā)病率)容易出現(xiàn)在人口稀少的縣,這個(gè)故事告訴我們的就是這些。?我們從一個(gè)令人費(fèi)解的事實(shí)說(shuō)起:腎癌的發(fā)病率在各縣有所不同,且是有規(guī)律的,我用統(tǒng)計(jì)學(xué)理論對(duì)此作了解釋?zhuān)合啾扔诖髽颖?,極端的結(jié)果(高發(fā)病率和低發(fā)病率)更容易出現(xiàn)在小樣本中。這樣的解釋不存在因果聯(lián)系。某縣的人口稀少既不會(huì)引發(fā)癌癥,也不能避免癌癥,只會(huì)使癌癥的發(fā)病率比人口稠密地方的發(fā)病率更高(或更低)。這就是真相,沒(méi)什么可解釋的。在某個(gè)人口稀少的縣,癌癥發(fā)病率并非真的比正常情況更低或更高,只是這個(gè)縣正好在某個(gè)特殊的年份趕上了抽樣調(diào)查罷了。如果我們?cè)诘诙曛貜?fù)這樣的分析,也能預(yù)測(cè)到在小樣本中出現(xiàn)極端結(jié)果的一般模式,但在前一年癌癥發(fā)病率高的縣,這一年發(fā)病率并不一定高。如果是這樣的話,則人口稠密或稀少的因素就無(wú)法對(duì)發(fā)病率作出解釋了:這些表面因素就是科學(xué)家眼中所謂的假象,即觀察結(jié)果完全依賴(lài)于調(diào)查方法的某一方面,在這個(gè)案例中,則依賴(lài)于樣本大小。?我剛才說(shuō)的例子也許會(huì)令你驚訝,但這并不是真相初次大白于天下。你早就知道應(yīng)該更相信大樣本,并且即使是對(duì)統(tǒng)計(jì)學(xué)一無(wú)所知的人也聽(tīng)說(shuō)過(guò)大數(shù)法則。但是“知道”并非是非抉擇問(wèn)題,你可能會(huì)發(fā)現(xiàn)下列陳述放在自己身上很合適:

?當(dāng)你閱讀這個(gè)關(guān)于流行病學(xué)的例子時(shí),并沒(méi)有立刻注意到“人口稀少”這一特點(diǎn)與此次調(diào)查有何關(guān)聯(lián)。?對(duì)于采用4個(gè)樣本還是7個(gè)樣本所產(chǎn)生的不同結(jié)果,你至少會(huì)感到有一點(diǎn)驚訝。?即使是現(xiàn)在,想要確定下面兩個(gè)陳述句所說(shuō)的完全是一回事,你也要費(fèi)些腦力:(1)大樣本比小樣本更精確。(2)小樣本比大樣本產(chǎn)生極端結(jié)果的概率大。?第一個(gè)表述清晰地陳述了一個(gè)事實(shí),但直到感受到第二個(gè)表述傳達(dá)給你的意思,你才意識(shí)到自己并沒(méi)有真正理解第一個(gè)表述的意思。?上述內(nèi)容概括起來(lái)就是:沒(méi)錯(cuò),你知道大樣本的結(jié)果更精確,但你現(xiàn)在可能才意識(shí)到你并不清楚為什么它們更精確。不僅你一人如此,阿莫斯與我在一起進(jìn)行的第一個(gè)研究表明,即使是經(jīng)驗(yàn)豐富的研究人員對(duì)樣本效應(yīng)也缺乏直覺(jué),要么就是理解不到位。小樣本的出錯(cuò)風(fēng)險(xiǎn)可能高達(dá)50%?沒(méi)有接受過(guò)統(tǒng)計(jì)學(xué)方面訓(xùn)練的人是出色的“直覺(jué)性統(tǒng)計(jì)學(xué)家”。我與阿莫斯在20世紀(jì)70年代早期的合作便始于對(duì)這個(gè)觀點(diǎn)的討論。他對(duì)我(在大學(xué))的研究班及我本人講過(guò),密歇根大學(xué)的一些研究人員對(duì)直覺(jué)性統(tǒng)計(jì)抱有樂(lè)觀態(tài)度。我個(gè)人對(duì)那個(gè)觀點(diǎn)有種強(qiáng)烈的感覺(jué):那段時(shí)間我發(fā)現(xiàn)自己并不是一個(gè)出色的直覺(jué)性統(tǒng)計(jì)學(xué)家,但是我也不相信別人會(huì)比我好多少。?對(duì)于一個(gè)研究型心理學(xué)家來(lái)說(shuō),樣本變差沒(méi)有什么特別的。它是個(gè)煩人且損失又大的麻煩事,會(huì)把每項(xiàng)實(shí)驗(yàn)都變成一場(chǎng)賭博。試想你希望證明6歲女孩的平均詞匯量比同齡男孩的詞匯量更豐富的假設(shè)。這個(gè)假設(shè)從整體來(lái)說(shuō)是成立的,女孩的平均詞匯量確實(shí)要比男孩的豐富一些。然而,盡管男孩與女孩差別很大,但你很可能會(huì)抽取到男女相差不太明顯的樣本,甚至?xí)榈揭粋€(gè)男孩比女孩詞匯測(cè)試成績(jī)還要好的樣本。如果你是那個(gè)研究者,這個(gè)結(jié)果對(duì)于你來(lái)說(shuō)代價(jià)就太高了,因?yàn)樗速M(fèi)了你的時(shí)間和精力,卻無(wú)法證實(shí)一個(gè)實(shí)際正確的假設(shè)。使用一個(gè)足夠大的樣本是降低這種風(fēng)險(xiǎn)的唯一方法。選擇小樣本的研究者只能看自己是不是能選對(duì)合適的樣本了。?想要對(duì)樣本錯(cuò)誤的風(fēng)險(xiǎn)作出評(píng)估,只需通過(guò)一個(gè)相當(dāng)簡(jiǎn)單的步驟就可以實(shí)現(xiàn)。然而按照慣例來(lái)看,心理學(xué)家并不是通過(guò)計(jì)算來(lái)選定樣本大小的。他們聽(tīng)從自己的判斷,但這些判斷往往是錯(cuò)的。在與阿莫斯發(fā)生意見(jiàn)分歧不久之前,我讀過(guò)一篇文章,文章通過(guò)生動(dòng)的觀察結(jié)果展示了研究人員所犯的錯(cuò)誤(他們現(xiàn)在仍在犯這種錯(cuò)誤)。該文作者指出心理學(xué)家選擇的樣本通常都很小,致使他們有50%的風(fēng)險(xiǎn)不能夠證實(shí)其正確的假設(shè),而任何研究人員都不會(huì)在頭腦清醒的情況下接受這種風(fēng)險(xiǎn)。對(duì)此有一個(gè)貌似正確的解釋?zhuān)葱睦韺W(xué)家對(duì)于樣本大小的決定反映了他們普遍存在的一個(gè)直覺(jué)性錯(cuò)誤觀念,即對(duì)于樣本變差范圍的錯(cuò)誤看法。?這篇文章令我十分震驚,因?yàn)槲以谧约旱难芯恐信龅搅艘恍﹩?wèn)題,卻在這篇文章中找到了相關(guān)解釋。與大多數(shù)研究型心理學(xué)家一樣,我也墨守成規(guī)地選擇了一些過(guò)小的樣本,因此得到的實(shí)驗(yàn)結(jié)果毫無(wú)意義?,F(xiàn)在,我知道了原因:那些奇怪的結(jié)果實(shí)際上就是我這種研究方法的典型產(chǎn)物。我的錯(cuò)誤特別令人尷尬,因?yàn)槲医踢^(guò)統(tǒng)計(jì)學(xué),也知道該怎樣計(jì)算樣本的大小,以便將風(fēng)險(xiǎn)降至可以接受的程度。但是,我從未通過(guò)計(jì)算來(lái)確定樣本大小。和我的同事一樣,我被傳統(tǒng)所禁錮,相信自己設(shè)計(jì)實(shí)驗(yàn)的直覺(jué),也從未認(rèn)真考慮過(guò)樣本選擇會(huì)帶來(lái)的那些風(fēng)險(xiǎn)。阿莫斯來(lái)參加研討會(huì)時(shí),我已經(jīng)意識(shí)到自己的直覺(jué)是錯(cuò)誤的。在研討會(huì)中,我們很快達(dá)成共識(shí)—密歇根的那些樂(lè)觀派是錯(cuò)誤的。?我與阿莫斯開(kāi)始調(diào)查一個(gè)問(wèn)題:只有我自己這么愚蠢還是我只是眾多愚蠢的人之一,我們通過(guò)一項(xiàng)測(cè)試來(lái)證實(shí)這個(gè)問(wèn)題,測(cè)試對(duì)象為一些數(shù)學(xué)家,想看看這些人是否也會(huì)犯類(lèi)似的錯(cuò)誤。我們?cè)O(shè)計(jì)了一份調(diào)查問(wèn)卷,其中描述了真實(shí)的研究情境,包括一些成功實(shí)驗(yàn)的復(fù)制。問(wèn)卷要求研究人員選擇樣品大小,對(duì)其決定可能帶來(lái)的失敗風(fēng)險(xiǎn)進(jìn)行評(píng)估,并為那些正在設(shè)計(jì)自己實(shí)驗(yàn)的研究生提供建議。在 “數(shù)學(xué)心理學(xué)協(xié)會(huì)”的一次會(huì)議上,阿莫斯收集了一組資深受試者(包括兩本經(jīng)濟(jì)學(xué)著作的作者)的反應(yīng)。結(jié)果很明顯:我并不是唯一一個(gè)愚蠢的人。大多數(shù)受試者都會(huì)犯和我一樣的錯(cuò)誤。顯然,即使是專(zhuān)家,在選擇樣品大小時(shí)也無(wú)法充分集中注意力。?我和阿莫斯將我們合寫(xiě)的第一篇文章命名為“對(duì)小數(shù)定律的盲信”。我們半開(kāi)玩笑地解釋道,“對(duì)于隨意取樣的直覺(jué)似乎符合小數(shù)定律,由此可以斷言大數(shù)法則對(duì)于小數(shù)定律同樣適用”。在文章中,我們還收錄了一個(gè)措辭有力的建議,即研究人員認(rèn)為他們“對(duì)于統(tǒng)計(jì)直覺(jué)應(yīng)抱有一些懷疑,只要條件允許,都應(yīng)采用計(jì)算方法來(lái)確定樣本規(guī)模,而不是依靠直覺(jué)印象作決定”。
?
愛(ài)華網(wǎng)本文地址 » http://www.klfzs.com/a/9101032201/58258.html
愛(ài)華網(wǎng)



