【靜.沙龍】推出【主題分享】,每周三晚9:00-10:30,圍繞大數(shù)據(jù)、人工智能、前沿科技與人文等主題進行微信群的在線交流、探討。
【靜.沙龍主題分享】第9期 數(shù)據(jù)驅(qū)動的生命科學
主講嘉賓: 陳鋼
主持人: 中國經(jīng)濟網(wǎng)經(jīng)營顧問 楊靜
嘉賓介紹:
【陳鋼】華大基因下屬華大科技VP。華大基因研究員,香港中文大學兼職助理教授。2012年畢業(yè)于中南大學計算機系,之后一直在深圳華大基因工作,主要從事生物數(shù)據(jù)分析和相關(guān)技術(shù)平臺搭建,以及復(fù)雜疾病和腫瘤的高通量實驗數(shù)據(jù)分析與可視化方面的工作。已發(fā)表生物信息領(lǐng)域的論文十余篇,翻譯出版《R語言實戰(zhàn)》、《統(tǒng)計思維》等書籍9本。長期從事數(shù)據(jù)分析與可視化、R語言、數(shù)據(jù)挖掘等方面的培訓(xùn)和咨詢工作,有豐富的經(jīng)驗。
【9月10日主題分享精彩回放】
小 米 粒,大 數(shù) 據(jù)
【陳鋼】大家好,今晚我拋磚引玉跟大家探討一下生命科學領(lǐng)域的數(shù)據(jù)。隨著高通量生物技術(shù)的發(fā)展,生命科學正在由一門實驗學科變成數(shù)據(jù)驅(qū)動的理論科學。今天正好是國際基因組大會第一天,我的老板,華大基因的董事長就這方面做了一個很有感染力的演講。請大家參考這篇文章:2014國際BT領(lǐng)袖峰會開幕,汪建董事長暢談《大數(shù)據(jù)和大科學》。
【楊靜lillian】汪建先生在演講中提到:在參加這次 BT 領(lǐng)袖峰會之前的兩天,他在西雅圖和比爾·蓋茨談了 5次,希望建一個大型的跟生命健康相關(guān)的數(shù)據(jù)中心,為全球重大疾病研究的科學家提供基本的組學水平上的基礎(chǔ)數(shù)據(jù),建立一套高效率的人工智能分析體系。他也相信這套系統(tǒng)的建立一定會對疾病的預(yù)測預(yù)防帶來革命性的變化,對未來精準的診斷治療帶來革命性的變化,為藥物的研發(fā)帶來革命性的變化。王俊院長則深入分析了BT和IT的融合關(guān)系,他認為,IT會向BT發(fā)展,某種意義上來講人類對自己的認知有多少,IT對未來的潛能就有多少,而BT也在往IT發(fā)展,因為整個生命個體的過程和信息化過程以及在這個基礎(chǔ)上規(guī)律性的挖掘和掌握也許就是真正的生物科技和生物產(chǎn)業(yè)的未來。
華大基因創(chuàng)始人汪建
【名詞解釋】高通量測序技術(shù)(High-throughputsequencing)又稱“下一代”測序技術(shù)("Next-generation"sequencingtechnology),以能一次并行對幾十萬到幾百萬條DNA分子進行序列測定和一般讀長較短等為標志。
【陳鋼】不僅僅是電子商務(wù),政務(wù),社交,安全等在被大數(shù)據(jù)改變,生命科學在這個時代的變革也很深刻。比如小米的改良。
小米是中華民族的傳統(tǒng)糧食,但因為產(chǎn)量問題,在近代被外來物種水稻所代替。但其實小米才是最適合中國人的主糧。雷軍的小米公司每次搬辦公室都會喝小米粥。華大基因幾年前開始嘗試改良小米,加強適應(yīng)性和提升產(chǎn)量。今年河南大旱,但我們田里的小米長勢不錯。小米本身就節(jié)水。華大基因現(xiàn)在還談不上挑戰(zhàn)孟山都,整體實力,商業(yè)規(guī)模都還有很大差距。
【思彤】小米究竟算粗糧還是細糧?
【常疆】另外,準確一點說小米是黃河流域的人群主食。
【陳鋼】分子生物學角度沒粗糧細糧的概念。說小米是中國人的傳統(tǒng)主糧是一個歷史問題。
【楊靜lillian】可以考慮出一種“中國米”,融合大米和“小米”。。。簡稱中米。。。
【陳鋼】我們要去發(fā)展小米,因為小米天然就節(jié)水,營養(yǎng)成分也很不錯。傳統(tǒng)的做法是以袁隆平院士為代表的雜交水稻,但需要很長的時間才能得到新品種,這也是為什么袁院士去海南做雜交水稻的實驗,一年可以做三次。但現(xiàn)在不是這么做了?,F(xiàn)在是先對大量,比如幾百甚至上千株目標性狀的小米做基因組測序,以便了解目標性狀跟基因組上位點的關(guān)系。
比如,我們希望得到非常抗旱的小米。那就對一定數(shù)量非常抗旱的小米和一定數(shù)量的普通小米做基因組測序,然后通過比較得到跟抗旱有關(guān)的基因組位點。
換言之,就是能知道什么樣的基因組會是抗旱的。知道這個信息后有兩個選擇,一是轉(zhuǎn)基因,大眾接受不了;第二,分子指導(dǎo)育種。
華大選擇第二個方式。
簡單來說就是我們依然采取跟袁隆平院士類似的天然雜交手段,得到雜交的后代。但我們不需要等到小米長大,長出類似胚芽之類的東西我們就可以對雜交后代進行測序,從而判斷它是否具有我們所需的性狀。這樣,實驗進程大大加快,每年可以完成幾十次甚至更多的實驗??梢院芸斓氐玫叫缕贩N。但其中關(guān)鍵就在于如何找到目標性狀相關(guān)的基因或者位點。
現(xiàn)在這個數(shù)據(jù)量還不是特別大,但因為獲取數(shù)據(jù)的成本遠比電子商務(wù)和社交網(wǎng)絡(luò)高,所以需要在樣本量較小的情況下,得到基因和性狀的關(guān)系,數(shù)據(jù)分析是個很麻煩的事情。
【楊福川】有沒有考慮到一個問題:天然的小米是經(jīng)過長時間進化而來的,而且已經(jīng)通過幾千年的實踐檢驗是適合人的生長需求的,如果人為改變小米的基因結(jié)構(gòu),會不會對人體造成傷害?類似于轉(zhuǎn)基因的問題如何解決?
【陳鋼】我們現(xiàn)在吃的幾乎所有農(nóng)作物都是雜交的。我個人并不擔心轉(zhuǎn)基因,但因為華大的產(chǎn)品和技術(shù)需要面向社會大眾,所以我們沒有采用轉(zhuǎn)基因的技術(shù)方案。但不管是轉(zhuǎn)基因還是分子指導(dǎo)的雜交育種,前提都是大規(guī)?;蚪M數(shù)據(jù)的分析。這樣的分析在人的復(fù)雜疾病、腫瘤的研究、篩查、預(yù)防和治療上也是類似的。比如二型糖尿病的研究,也是類似的,只是更復(fù)雜,數(shù)據(jù)量更大。
【陳緒】我支持非轉(zhuǎn)基因。
【楊靜lillian】這個做法,確實符合中國人的特點,照顧了中國文化。
【秦繼榮】小米+步槍起家,陜北小米營養(yǎng)好,可以分析一下!
【韓曦晨】小米可以做主食:在東北,它和大米放一起燜,做出來的主食叫二米飯。在山西,煮一鍋小米,熟了后拿勺子鑿結(jié)實了吃,叫稠粥。
【常疆】小米粒兒,大數(shù)據(jù)。
【陳鋼】華大的小米并沒有采用轉(zhuǎn)基因的技術(shù),都是通過一般的雜交獲得的。我們的小米試驗田在全國各地都有,在南方也有。各地環(huán)境不同,都需要不同的品種。所以,小米的育種是個長期項目。前面說的數(shù)據(jù)分析也不是一次性的,長期要做。而且隨著簡單的問題被解決,數(shù)據(jù)量和分析難度都會持續(xù)增加。
這一季的小米應(yīng)該要上市了。到時楊老師做個活動,給群里的朋友們送一些吧。上次去阿里就送了一些過去。
【楊靜lillian】那么目前小米的數(shù)據(jù)是怎么進行處理和分析的呢?或者說大數(shù)據(jù)對小米育種有何神奇作用?
【陳鋼】沒有幾千株甚至更大規(guī)模的小米的基因組測序數(shù)據(jù),上述品種的開發(fā)和培育幾乎是不可能的?,F(xiàn)在小米的數(shù)據(jù)量還不是特別大,跟人的數(shù)據(jù)相比,數(shù)據(jù)管理和分析上的IT技術(shù)要求還不是特別高,統(tǒng)計模型方面的難度更大些。小米的數(shù)據(jù)分析的IT方面的難度不高。就作用而言,沒有數(shù)據(jù)分析,就不可能有這些新的品種。
人的數(shù)據(jù),不管是基因組還是宏基因組,還有蛋白質(zhì)組和代謝組的數(shù)據(jù)分析在IT技術(shù)方面都比小米的要復(fù)雜。
【楊靜lillian】但這能稱為大數(shù)據(jù)么?是以統(tǒng)計建模為主吧?
【陳鋼】呵呵,我的分享標題就沒說是“大數(shù)據(jù)”。但我們之前的一個宏基因組項目中的特殊聚類分析,需要在天河一號上驅(qū)動幾百臺計算節(jié)點的GPU,運行一周。而且因為節(jié)點總會有不穩(wěn)定的情況,實際運行時間要更長。
另一方面,俺不覺得數(shù)據(jù)量大就是大數(shù)據(jù),數(shù)據(jù)量相對小就不是大數(shù)據(jù)。培育小米新品種的關(guān)鍵一步就是要知道基因跟性狀之間的關(guān)系。沒有足夠的數(shù)據(jù),不可能做到
【王濤-愛奇藝】食用轉(zhuǎn)基因?qū)θ梭w有沒有害?
【陳鋼】基因的知識(奧秘)很多,請訪問http://www.knowgene.com
【王濤-愛奇藝】轉(zhuǎn)基因和雜交是一回事么?
【陳鋼】不同的人有不同的解讀,我覺得沒啥本質(zhì)區(qū)別。我認為無害,至少沒法證明有害。我們吃的農(nóng)產(chǎn)品幾乎都是雜交的,至少現(xiàn)在看上去沒什么明顯的害處。
【武卿】雜交的和轉(zhuǎn)基因的反正我都吃。非轉(zhuǎn)基因的是經(jīng)上帝之手,轉(zhuǎn)基因的是經(jīng)人類之手~換只手而已。
基 因 測 序 的 數(shù) 據(jù) 驅(qū) 動
【陳鋼】傳統(tǒng)的基于基因組的復(fù)雜疾病研究是用人的基因組數(shù)據(jù)做Case/Control的對照研究,大型項目的樣本數(shù)能有數(shù)千例。小范圍測序的項目可以做到幾萬例。但這只能解決一小部分跟基因組有密切關(guān)系的疾病。
人的基因組是3G,基因組測序得到的數(shù)據(jù)量一般不少于100G,一個1000VS.1000的項目,測序數(shù)據(jù)量大概是200T。
但這依然解決不了很多常見的疾病,包括我剛才說的二型糖尿病??紤]到二型糖尿病跟飲食的關(guān)系,于是引入人體腸道菌群的宏基因組數(shù)據(jù)。數(shù)據(jù)量繼續(xù)增長,而且由于宏基因組的復(fù)雜性,分析難度也增加了。
【陳鋼】還真有一個肥胖相關(guān)的基因。詳見這里:http://www.knowgene.com/article/139。脂肪量與肥胖相關(guān)(fatmassand obesity associated,F(xiàn)TO)基因是至今為止研究證實最強最確定的肥胖易感基因,在小鼠和人類的研究中均顯示神經(jīng)和心血管系統(tǒng)與身體質(zhì)量指數(shù)、肥胖的風險、和2型糖尿病密切相關(guān),可想而知FTO基因的表達與高脂高糖的生理指標是分不開的。FTO基因位于Chr16q12.2,全長417,979個堿基,從53,737,875bp起始,到54,155,853bp結(jié)束。
換言之,如果經(jīng)過測序判斷你的FTO基因是AA/AT型,你的胖就比較合理了。當然,決定肥胖的因素很多。基因組只是其中的部分因素,腸道菌群等都會影響。
【王濤-愛奇藝】如果一個人通過鍛煉減肥成功。他的肥胖基因是否也相應(yīng)能夠發(fā)生變化呢?
【張云泉ICT】真的?我也測試下。
【陳鋼】楊靜老師做了采用生物芯片技術(shù)的基因檢測,是北京的360基因公司提供的。我可以幫你做,我們給你一個唾液收集器,然后送過來就是了。
單個DNP位點的(測序)還是很簡單的,硬成本100元以內(nèi),單個基因的。楊靜老師做的那個比較高級,要幾千元。
【白碩】摻雜了基因檢測的雜交,就像摻雜了語義分析的檢索。
【高博】我也不是很懂,那種查各種癌的發(fā)病率的好像也可以做吧?
【陳鋼】癌癥的科學研究還不夠透徹,但風險相對整體人群的高低還是可以判斷的。而且癌癥的風險還跟免疫組等東西相關(guān),想得到比較靠譜的結(jié)果就得一起做。
好像明天華大的醫(yī)學部門會發(fā)布一個癌癥風險的檢測產(chǎn)品,還是比較貴,估計要一萬元左右。癌癥是最復(fù)雜的疾病了,現(xiàn)在看來。
一般復(fù)雜疾病研究時,一個人的測序數(shù)據(jù)量100G。腫瘤研究中單個人的基因組測序數(shù)據(jù)有時接近1T。
我們知道很少一部分的基因和性狀的關(guān)系,但很多性狀由很復(fù)雜的基因組狀態(tài)所影響的,而且還受到環(huán)境因素的影響。

一對一的關(guān)系都解決了,所謂單基因病。而且,如果單個突變會導(dǎo)致不良性狀的話,這樣的個體在進化過程中會被淘汰的,很容易就被淘汰了。
多對一,或者多對多都是特別復(fù)雜的情況。因為這里說的都是點突變,就是基因組上某個位點從A變成T或者類似的。但基因組的變化不僅僅是這種簡單的變化,還有插入,缺失,染色體片段缺失和擴增等,甚至還有染色體之間大段基因組的translocation(易位)。做數(shù)據(jù)分析的時候讓人抓狂啊。
【常疆】基因影響應(yīng)該比語義識別難很多吧。
【白碩】基因的折疊,和句法分析關(guān)系密切。
【高博】說不定A基因的表達實際上又取決于后面200個基因的狀態(tài)呢……我還記得是兩種嘌呤和兩種嘧啶。
【陳鋼】做IT膩味了,就來嘗試生命科學吧。最近這個行業(yè)獲得投資和涌現(xiàn)的創(chuàng)業(yè)公司都在明顯地增加,阿里云的朋友也跳出來做云計算上的生物信息了。機器學習,高性能算法,高性能的有針對性的硬件基礎(chǔ)設(shè)施,都異常重要。
【胡本(Ben)立】考慮突變,多長時間需去重測序列一次?
【陳鋼】如果是說基因組的話,年輕的時候可以間隔十來年?;蚪M其實變化很小,大規(guī)模的變化就是癌癥,所以反復(fù)檢測基因組的意義就在于判斷癌癥風險。
現(xiàn)在有一種思路是這樣的,在健康年輕的時候去采集包括基因組在內(nèi)的各種人體數(shù)據(jù),作為健康狀態(tài)的基準數(shù)據(jù)。然后間隔一段時間做一些檢測,即使是健康的,也可以判斷你跟年輕時的狀態(tài)在分子層面上有了多大的變化。
有些可以干預(yù),比如楊靜老師說的篩查。例如癌癥篩查,安吉麗娜.朱莉那個是遺傳性乳腺癌。如果是胎兒的篩查,在部分國家發(fā)現(xiàn)問題后可以選擇流產(chǎn),降低社會和家庭負擔;如果是嬰兒篩查,發(fā)現(xiàn)問題后可以盡早通過教育、藥物的訪問進行干預(yù)。像比較常見的遺傳性耳聾,兩廣地區(qū)的地中海貧血癥都是如此。
這方面的爭議也很多,我們的科研項目和臨床服務(wù)都需要經(jīng)過倫理委員會的審查。
上面所說的這些遺傳性乳腺癌,胎兒和嬰兒篩查,之所以現(xiàn)在能做,都是因為之前通過數(shù)據(jù)的積累,得到了確定的結(jié)果。比如,現(xiàn)在大城市常見的無創(chuàng)產(chǎn)前篩查。除去測序技術(shù),這里面一個重要的事情就是積累健康孕婦的外周血測序數(shù)據(jù)。核心的計算就是把被測者的數(shù)據(jù)跟積累的數(shù)據(jù)算一個z-score??纯从卸啻蟛町悾町惔罅?,就很有可能有問題。
【胡本(Ben)立】@楊靜lillian 腦科學是一端,基因是另一端,你現(xiàn)在全cover了。
【陳鋼】腦科學現(xiàn)在看上去比基因更麻煩。實驗手段的成熟度都還有巨大差距,數(shù)據(jù)分析更是麻煩。
【胡本(Ben)立】他們認為你們更麻煩。。。
【楊靜lillian】《奇點臨近》的譯者就把基因科學家比喻成狂人。。。
【陳鋼】都很謙虛嘛。俺自認不是狂人,俺的目標是專心做碼農(nóng):)
【楊靜lillian】數(shù)據(jù)驅(qū)動的生命科學,除了小米和基因測序,未來有何展望?
【陳鋼】未來的展望可以看看我一開始發(fā)的那個汪建老師的演講介紹,全文應(yīng)該很快會出來的。數(shù)據(jù)驅(qū)動的生命科學,接下來就是數(shù)據(jù)驅(qū)動的醫(yī)學,數(shù)據(jù)驅(qū)動的健康管理,數(shù)據(jù)驅(qū)動的健康生活~~~其實在各個方面都已經(jīng)看到了一些苗頭。@黎浩會有一些重量級的部署:從硬到軟,從生物信息到互聯(lián)網(wǎng)產(chǎn)品開發(fā)。(注:黎浩是華大基因總裁助理,兼業(yè)務(wù)運營與發(fā)展中心主任,現(xiàn)負責華大基因的互聯(lián)網(wǎng)和大數(shù)據(jù)方面的規(guī)劃和業(yè)務(wù)。)
【黎浩】明天華大基因會宣布啟動炎黃計劃腫瘤篇,推動腫瘤基因組學的科研計劃。未來希望更多人建立個人的健康基線和健康管理。
【楊靜lillian】據(jù)說華大基因要轉(zhuǎn)型為大數(shù)據(jù)公司,黎總,是否有此一說?
【黎浩】是的,基因大數(shù)據(jù)的運營公司。
【楊靜lillian】KK說過,傳統(tǒng)就是包袱?;ヂ?lián)網(wǎng)公司還在執(zhí)迷,華大基因已經(jīng)要跨欄了!基因大數(shù)據(jù)的運營公司,還能向群友透露些具體規(guī)劃么?
【黎浩】測序儀高通量產(chǎn)出數(shù)據(jù),國家基因庫存儲資源,利用超算進行大數(shù)據(jù)計算,建模分析得出科學發(fā)現(xiàn),建立交互平臺與大家分享。
【陳鋼】機器學習、人工智能方面華大基因要組建專門的團隊;高性能計算會基于自己的計算資源,同時整合國家超算中心,把國家超算的計算資源也利用起來;云計算,顯然是私有云和公有云的混合~~~
【楊靜lillian】現(xiàn)在不是在利用么?以后還要更多利用吧?天河二號離你們近。但節(jié)點不穩(wěn)定的問題怎么解決?
【陳鋼】超算也在進步~~~商業(yè)云計算系統(tǒng)也有節(jié)點不穩(wěn)定的時候,何況超算給的是物理節(jié)點。
【陳鋼】我今天分享的總結(jié):數(shù)據(jù)滲透到各行各業(yè),也驅(qū)動著各行各業(yè)的發(fā)展,乃至變革。生命科學作為對人類有直接影響的領(lǐng)域,也被數(shù)據(jù)改變著。對于各種背景的人,這里面都蘊藏著巨大的機遇。不知何時會爆發(fā),但至少現(xiàn)在已經(jīng)在啟動。
【靜點評】華大基因15周年,已經(jīng)走在數(shù)據(jù)驅(qū)動的生命科學路上。小米粒兒,大數(shù)據(jù);基因測序,也有數(shù)據(jù)驅(qū)動。未來,華大基因還要向基因大數(shù)據(jù)的運營公司轉(zhuǎn)型——他們可能會建設(shè)大型的健康相關(guān)的數(shù)字化中心,建立一套高效的人工智能分析體系。未來必將實現(xiàn)BT與IT的融合。這樣的愿景讓人無限憧憬,中國的生物技術(shù)產(chǎn)業(yè)會迎來新的飛躍。讓我們期待華大基因的送小米活動,以及組織參觀華大基因研究院,深入了解基因技術(shù)的研究進展。感謝今天眾多群友的關(guān)注和參與,我們共同期待華大基因在生命科學和大數(shù)據(jù)領(lǐng)域再創(chuàng)輝煌!為中國人創(chuàng)造一個更美好的明天:就像汪健所說,華大基因的中國夢就是讓所有中國人不餓不傻不病不死。在此也恭祝華大基因15周年生日快樂,華大基因加油!
有關(guān)華大15周年的詳細信息請見閱讀原文的鏈接:華大基因筑未來。另外,有需要360基因測序的,請與@陳鋼直接聯(lián)系。
【陳鋼】華大基因總部在深圳,分支機構(gòu)遍布全球~~~美洲區(qū)的總部還是在美國,有銷售人員在加拿大。當然,首推華大基因的產(chǎn)品和服務(wù)哈:)都可以跟我聯(lián)系,以后我及時在群內(nèi)跟大家分享這個行業(yè)最新的動態(tài)和產(chǎn)品。華大力推全行業(yè)的發(fā)展~~~
【黎浩】做個廣告:華大需要更多人的參與,下一個十五年我們一起創(chuàng)造!華大基因的大數(shù)據(jù)戰(zhàn)略還在規(guī)劃中,所以期待更多人才加盟。
愛華網(wǎng)


