《數(shù)學(xué)之美》是吳軍繼《浪潮之巔》后的又一力作,是他2006年起在google黑板報(bào)上一系列文章的合集,主要講解了各種各樣的數(shù)學(xué)模型,包括自然語(yǔ)言處理的算法,搜索領(lǐng)域的相關(guān)技術(shù)以及google云計(jì)算的一些主要算法。
為了讓非計(jì)算機(jī)專(zhuān)業(yè)的讀者也能看懂,吳軍再次展示了其強(qiáng)大的表達(dá)能力和專(zhuān)業(yè)素養(yǎng):馬爾科夫鏈,貝葉斯網(wǎng)絡(luò),最大熵模型和維比特算法等從他口中講出,就變成了一個(gè)個(gè)引人入勝的精彩故事。如果讀者以前對(duì)一些抽象的數(shù)學(xué)概念和模型退而止步,不是因?yàn)閿?shù)學(xué)不夠美,只是因?yàn)橐郧暗慕滩谋婚幐钸^(guò),一上來(lái)就是公式和推導(dǎo),而沒(méi)有詳細(xì)的介紹每一種數(shù)學(xué)思想或者模型產(chǎn)生的背景,能夠解決的問(wèn)題,以及各種流派的發(fā)展方向和各派掌門(mén)人之間的恩怨情仇。當(dāng)然,為了兼顧計(jì)算機(jī)專(zhuān)業(yè)的讀者,很多章節(jié)都從數(shù)學(xué)模型和公式上做了進(jìn)一步的推導(dǎo)和闡述。
全書(shū)1-7章主要介紹了如何用統(tǒng)計(jì)模型來(lái)處理自然語(yǔ)言。按照以前計(jì)算機(jī)課程《編譯原理》,對(duì)語(yǔ)言的處理主要分為特征詞尋找,語(yǔ)法分析和語(yǔ)義分析等幾步。計(jì)算機(jī)編程語(yǔ)言一般都可以歸為上下文無(wú)關(guān)文法,可用傳統(tǒng)的語(yǔ)義分析來(lái)完美解釋。但這種傳統(tǒng)的語(yǔ)義分析方法對(duì)自然語(yǔ)言的處理遇到了以下的兩個(gè)難題
- 自然語(yǔ)言規(guī)則的多樣性。大部分計(jì)算機(jī)編程語(yǔ)言的語(yǔ)法可以用有限的幾十條BNF范式表達(dá)清楚,而自然語(yǔ)言本身太復(fù)雜,又處在一個(gè)不斷變化的過(guò)程中,即使寫(xiě)幾萬(wàn)條文法規(guī)則,也只能覆蓋20%左右的真實(shí)句子。而且,這眾多的文法中很有可能是互相矛盾的
- 即使能把自然語(yǔ)言的所有文法規(guī)則都表達(dá)出來(lái),因?yàn)樽匀徽Z(yǔ)言的上下文相關(guān)性,計(jì)算量過(guò)大,遠(yuǎn)遠(yuǎn)超出了計(jì)算機(jī)能處理的范圍
當(dāng)用文法規(guī)則分析自然語(yǔ)言的方法停滯不前之時(shí),統(tǒng)計(jì)模型橫空出世。統(tǒng)計(jì)模型完全是從概率的角度來(lái)分析某一句話的意思。假設(shè)有一句話S由N個(gè)詞w1,w2,……,wn組成,那么S在文章中出現(xiàn)的概率是
P(S) =P(w1,w2,……,wn) =P(w1)*P(w2|w1)*P(w3|w1,w2)*……*P(wn|w1,w2,…,wn-1)
加上馬爾科夫假設(shè),即每個(gè)詞出現(xiàn)的概率只和它前一個(gè)詞出現(xiàn)的概率有關(guān),于是上式簡(jiǎn)化成
P(S) = P(w1,w2,……,wn) =P(w1)*P(w2|w1)*P(w3|w2)*……*P(wn|wn-1)
其中,條件概率P(wn|wn-1)可以通過(guò)聯(lián)合概率P(wn-1,wn)和邊緣概率P(wn-1)相除得到。只要樣本閱讀材料的數(shù)量足夠大,根據(jù)大數(shù)定理,是能夠用樣本閱讀材料中(wn-1,wn)聯(lián)合出現(xiàn)的頻率和文本中(wn-1)單獨(dú)出現(xiàn)的頻率來(lái)替代P(wn-1,wn)和P(wn-1)。這種模型一下把自然語(yǔ)言識(shí)別的成功率提高了好幾個(gè)數(shù)量級(jí),而且非常的簡(jiǎn)單有效!
作為Google的前Sr. Director, 吳軍當(dāng)然不會(huì)忘記介紹搜索引擎相關(guān)的模型。搜索引擎的建立主要分為網(wǎng)頁(yè)收集,建立索引,PageRank和網(wǎng)頁(yè)相關(guān)性檢查四個(gè)步驟。
完成第一步收集網(wǎng)頁(yè)工作的程序是“網(wǎng)絡(luò)爬蟲(chóng)”。網(wǎng)絡(luò)爬蟲(chóng)遇到的主要問(wèn)題是如何有效的遍歷整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè)。這里有基于廣度優(yōu)先和深度優(yōu)先的不同搜索策略,同時(shí)又要用Hash表來(lái)記住已保存的網(wǎng)頁(yè)以避免重復(fù)保存以節(jié)省存儲(chǔ)空間。
PageRank是指搜索得到的所有網(wǎng)頁(yè)應(yīng)該以什么樣的順序顯示給用戶。這里的主要思想是把網(wǎng)頁(yè)之間的鏈接指向描述成一個(gè)矩陣A,同時(shí)向量B表示搜索結(jié)果網(wǎng)頁(yè)的排序。 假設(shè)最初每個(gè)網(wǎng)頁(yè)的權(quán)重一樣都是1/N,即B = (1/N,1/N,……),經(jīng)過(guò)有限次的迭代 Bi = A*Bi-1,B會(huì)最終收斂而得到最后的排名。Google的創(chuàng)始人Page也因?yàn)檫@個(gè)算法在30歲的時(shí)候當(dāng)選美國(guó)工程院院士。
網(wǎng)頁(yè)相關(guān)性則是指被查詢(xún)句子和網(wǎng)頁(yè)的關(guān)聯(lián)度。假設(shè)被查詢(xún)句子S =w1,w2,……,wn, 而每個(gè)詞在網(wǎng)頁(yè)N中出現(xiàn)的頻率(TermFrequency) 為T(mén)Fi, 那么S和網(wǎng)頁(yè)N的關(guān)聯(lián)度為 TF1 + TF2 + TF3 + 。。。。。。+TFn。結(jié)合PageRank,一個(gè)查詢(xún)的結(jié)果等于網(wǎng)頁(yè)相關(guān)性結(jié)果和PageRank結(jié)果的乘積。
除了一般的文本搜索,地圖的搜索也是一個(gè)非常有意思的話題,其背后用到的數(shù)學(xué)知識(shí)則是有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃。有限狀態(tài)機(jī)主要用于地址的分析,而動(dòng)態(tài)規(guī)劃則用于找到兩個(gè)地址之間的最短路徑。比如要找到北京到廣州的最短距離,因?yàn)橛?jì)算量太大, 不能把整個(gè)圖上的所有從北京到廣州的路徑先遍歷一遍再返回最短的一個(gè)。這個(gè)問(wèn)題要反過(guò)來(lái)考慮,如果最短路徑中包括鄭州,那么最短路徑中北京到鄭州的路徑一定是所有北京到鄭州的路徑中最短的。如果不是的話,容易證明出該北京到廣州的路徑一定不是最短的。這樣,可以在北京和廣州之間劃一條線L1,假設(shè)L1上有10個(gè)城市,先算出北京到這10個(gè)城市的距離,北京到廣州的最短路徑中一定包含這10條路徑中的一個(gè)。接著在L1和廣州之間再劃一條線L2,計(jì)算出L1上10個(gè)城市到L2上10個(gè)城市的最短距離。這樣一直劃線到廣州。假如北京到廣州之間要經(jīng)歷15個(gè)城市(有15條線),那么如上方法的計(jì)算量是10*10*15,而用窮舉法的話是10的15次方,計(jì)算量差別在萬(wàn)億以上。這實(shí)際上是把一個(gè)全局最優(yōu)的問(wèn)題轉(zhuǎn)換成了一個(gè)尋找局部最優(yōu)的算法,如下圖所示。

自動(dòng)分類(lèi)是書(shū)中另一個(gè)重要話題。Google新聞每天從不同的網(wǎng)站抓成百萬(wàn)的新聞,靠人工是無(wú)法及時(shí)分類(lèi)的,那么,如何對(duì)新聞自動(dòng)分類(lèi)?主要的想法是把每篇新聞中的關(guān)鍵詞提起出來(lái),把每個(gè)關(guān)鍵詞出現(xiàn)的頻率記為Bi,用向量B = (B1,B2,B3,……, Bn)來(lái)表示每一篇新聞 (Bi是第i個(gè)關(guān)鍵詞在新聞中的詞頻)。向量A和B的夾角就表示兩篇新聞A和B的相似性,夾角越小,相似性越高。
先通過(guò)訓(xùn)練的方式給出每種新聞的“標(biāo)準(zhǔn)”向量,比如體育新聞的向量或者政治新聞的向量,然后把從互聯(lián)網(wǎng)上抓到的新聞和事先訓(xùn)練好的“標(biāo)準(zhǔn)”向量做比較,依靠夾角大小來(lái)自動(dòng)確定新聞的歸類(lèi)。
文中還談到了當(dāng)今最牛的對(duì)沖基金--文藝復(fù)興公司,其每年高達(dá)34%的回報(bào)都來(lái)自于最大熵模型。最大熵模型指出,需要對(duì)一個(gè)隨機(jī)事件的概率做出預(yù)測(cè)的時(shí)候,我們的預(yù)測(cè)應(yīng)該滿足全部已知的條件,而對(duì)未知情況不做如何的主觀預(yù)測(cè)。這種情況下概率分布最均勻,風(fēng)險(xiǎn)最小,信息熵最大,又稱(chēng)為最大熵模型。股票市場(chǎng)需要考慮的因素多達(dá)幾十上百種,最大熵方法恰好能找到一種滿足所有條件的模型,難怪達(dá)拉皮垂兄弟等科學(xué)家能賺的盆滿缽滿,真是書(shū)中自有黃金屋!
愛(ài)華網(wǎng)本文地址 » http://www.klfzs.com/a/25101014/234950.html
愛(ài)華網(wǎng)

