本文來自微信公眾號“硅星人Pro”(ID:Si-Planet),作者:苗正。
谷歌的大語言模型Gemini1.0,一經(jīng)問世就技驚四座。首先在性能方面,無論是從對文本、圖像、音頻的理解,還是對57種領域文本以及數(shù)學問題的推理,幾乎都超過了自然語言界的霸主GPT-4。而且在谷歌Gemini的官網(wǎng)上還有這一段話,內(nèi)容是“Gemini是第一個在MMLU(海量多任務語言理解)上超過人類專家的模型”。
為什么谷歌Gemini這么厲害呢?其實最核心的原因來自于訓練谷歌Gemini所使用的兩種服務器端推理芯片TPU v4和TPU v5e。雖然從結(jié)果來看,TPU跟GPU都是用來訓練和推理,但是兩個人在“解題思路”上,相距甚遠。
谷歌在TPU v4上采用了一種名為光學回路開關(optical circuit switch,以下簡稱OCS)。顧名思義,就是服務器組用光來傳遞信息。上方是注入模塊,使用850納米激光二極管,發(fā)射850納米的顯示光。中間是用來拆分或者合并光的二向色分光器;下方是用來反射的2D MEMS陣列;左右兩端是用來投射O波段信號光的2D透鏡陣列和光纖準直器陣列。
傳統(tǒng)服務器組用的是銅線導電,通過規(guī)定時間內(nèi)銅線上電子傳輸?shù)膫€數(shù)來傳遞信息。但是任何介質(zhì),哪怕是不計成本的采用金或者銀,依然有電阻的存在,必然會減慢電子在這之間傳遞的速度。沒有任何的光電轉(zhuǎn)換環(huán)節(jié),全都是由光來運送信息,沒有中間商賺差價。
我們不妨對比一下市面上最常見,也是Open AI目前的解決方案,英偉達H100所使用的Infiniband技術。這個技術使用交換結(jié)構拓撲。所有傳輸都在通道適配器處開始或結(jié)束。每個處理器都包含一個主機通道適配器(HCA ),每個外設都有一個目標通道適配器(TCA)。
說得直白一點,H100就和過去的驛站差不多。驛站會代替權力中心接收消息,這樣管理者就可以直接去驛站來查看自己未來的任務。但是TPU v4則是直接燒狼煙,不僅快,而且跳過中間所有的消息轉(zhuǎn)達設施,一步到位。根據(jù)谷歌的說法,OCS系統(tǒng)和底層光學組件成本價格不到TPU v4系統(tǒng)成本的5%,其功耗不到整個系統(tǒng)的5%,又便宜又好用。
說到這,不得不提一個谷歌創(chuàng)造的概念,叫做MFU。全稱為模型FLOPs利用率(Model FLOPs Utilization),這是一個不同于其他衡量計算利用率的方法,不包含任何反向傳遞期間的作業(yè),這意味著MFU衡量的效率直接轉(zhuǎn)化為端到端的訓練速度。那也就是說,MFU最大上限一定是100%,同時數(shù)字越高代表訓練速度越快。
谷歌想通過MFU這個概念,來評估TPU v4的負載能力以及運行效率,以此得出到底可以給谷歌Gemini上多少強度。對一系列純解碼器變壓器語言模型(下圖以GPT為例)配置進行了深入的基準測試,這些配置的參數(shù)從數(shù)十億到數(shù)萬億不等。測試規(guī)定,模型大小(參數(shù)單位十億)是芯片數(shù)的二分之一。
在谷歌的基準測試活動中,TPU v4實現(xiàn)了44-56%的MFU。根據(jù)下圖的對比可以明顯看到,尤其是多個TPU v4串聯(lián)的情況。而這也正是OCS的神奇之處,同時谷歌也希望借助OCS向世人們傳達一個道理:“要相信光。”
既然TPU v4都這么厲害了,那TPU v5e作為迭代產(chǎn)品,效果只會更好。事實上谷歌之所以將這個模型命名為Gemini,也是因為這兩個TPU。Gemini的本意是雙子座,代表的是希臘神話中的天神宙斯與斯巴達王后勒達所生的雙胞胎卡斯托耳和波魯克斯。TPU v4和TPU v5e某種意義上也是雙胞胎,因此得名Gemini。當然,另外有一種可能是開發(fā)者特別喜歡《圣斗士星矢》,里面黃金十二宮篇大BOSS就是雙子座的撒加,絕招是銀河星爆。不過我覺得后者的可能性低一點。
還有一點,服務器最大的成本來自運營和維護。但是在這種規(guī)模下,使用傳統(tǒng)的定期對持久集群存儲進行權重檢查點操作的方法是不可能保持高吞吐量的,畢竟要周期地關閉重啟某個機組。所以對于Gemini,谷歌使用模型狀態(tài)的冗余內(nèi)存副本,并且在任何計劃外的硬件故障時,可以直接從完整的模型副本中快速恢復。與PaLM和PaLM-2比,盡管使用了大量的培訓資源,但這大大加快了恢復時間。結(jié)果,最大規(guī)模的培訓工作的總體產(chǎn)出從85%增加到97%。
谷歌Gemini背后的服務器組也是第一款支持嵌入的硬件的超級計算機。嵌入是一種比較貼近谷歌業(yè)務的算法。嵌入本身是一種相對低維的空間,模型可以將高維向量轉(zhuǎn)換為這種低維空間。借助嵌入,可以更輕松地對表示字詞的稀疏向量等大型數(shù)據(jù)輸入進行機器學習。理想情況下,嵌入會將語義上相似的輸入置于嵌入空間中彼此靠近的位置,以捕獲輸入的一些語義。
嵌入是廣告、搜索排名、YouTube和Google Play中使用的深度學習推薦模型 (DLRM) 的關鍵組成部分。每個TPU v4都包含第三代稀疏核心數(shù)據(jù)流處理器,可將依賴嵌入的模型加速5至7倍,但僅使用5%的芯片面積和功耗。
嵌入處理需要大量的端到端通信,因為嵌入分布在在模型上協(xié)同工作的TPU芯片周圍。這種模式強調(diào)共享內(nèi)存互連的帶寬。這就是TPU v4使用3D環(huán)面互連的原因(相對于TPU v2和v3使用2D 環(huán)面)。TPU v4的3D環(huán)面提供了更高的二等分帶寬,即跨越互連中間從一半芯片到另一半的帶寬,以幫助支持更多數(shù)量的芯片和更好地展現(xiàn)稀疏核心性能。
毫無疑問,谷歌是一家軟件公司,谷歌Gemini是一款軟件產(chǎn)品,但是谷歌勝就勝在硬件上。谷歌強調(diào)Gemini是一個功能強大的多模態(tài)模型(Multimodal Model)。多模態(tài)指的是結(jié)合了多種感官輸入形式來做出更明智的決策,相當于是模型可以用復雜、多樣和非結(jié)構化的數(shù)據(jù)來求解。
一個短視頻(360p到1080p)的數(shù)據(jù)量大約幾十mb到幾百mb,一條語音的數(shù)據(jù)量約為幾百kb,一行文字的數(shù)據(jù)量約為幾b。對于傳統(tǒng)的大語言模型,如果只處理文字信息,那么對服務器的載荷要求不會很高,畢竟數(shù)據(jù)量小。可是一旦將視頻、圖片等一并處理,那么服務器的載荷就會成指數(shù)倍增長。事實上不是其他模型不能弄多模態(tài),是其他服務器扛不住這么大數(shù)據(jù)量,硬件拖了軟件的后腿。谷歌之所以敢弄,更多的原因是TPU v4和TPU v5e在大規(guī)模串聯(lián)的場景下,高載荷高MFU無疑是谷歌的絕招。
然而谷歌并不能高興太早,首先英偉達的張量計算GPU H200再過些日子就要發(fā)售了。像Open AI這樣的大客戶估計是第一時間就能拿到手。到時候GPT無論是推理還是訓練,都可能會來到一個非常夸張的量級。
其次,微軟也出手了。2019年時,微軟啟動了一個名為雅典娜的項目。通過設計和開發(fā)定制人工智能芯片,以滿足訓練大型語言模型和驅(qū)動人工智能應用的獨特需求。而且雅典娜和TPU相似,也是一個內(nèi)部項目,能夠減少對英偉達等第三方硬件提供商的依賴。雅典娜是一個極其神秘的項目,它的性能是多少,它的外觀是怎樣,外界一概不知。唯一能夠了解的,是有些幸運的Open AI員工已經(jīng)開始對雅典娜測試了。
雖然不清楚H200和雅典娜具體能為Open AI帶來哪些變化,不過可以確定的是,谷歌以及谷歌Gemini壓力都挺大的。
TPU對谷歌意味著什么?
說到谷歌的TPU還有一個小故事,TPU的全稱是Tensor Processing Unit,中文是張量處理單元,是 Google 開發(fā)的專用集成電路(ASIC),專門用于加速機器學習。雖然在公眾視野中,谷歌是2016年5月的I/O大會上宣布使用TPU,可實際在2015年的時候TPU就已經(jīng)問世。
神經(jīng)網(wǎng)絡翻譯技術從2014年9月提出,百度2015年5月上線首個互聯(lián)網(wǎng)NMT系統(tǒng)(神經(jīng)網(wǎng)絡機器翻譯系統(tǒng))。NMT技術克服了傳統(tǒng)方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文信息,對句子進行整體的編碼和解碼,從而產(chǎn)生更為流暢的譯文。
但是以當時的技術,神經(jīng)翻譯對服務器造成的負載壓力非常大,主要當時硬件沒那么強大,也沒有H100、A100這樣的產(chǎn)品。從發(fā)表的論文和谷歌Blog來看,谷歌實際上已經(jīng)在當時具備了這樣的技術,沒有使用的核心原因就是硬件遭不住。經(jīng)過大約半年的測試,TPU已經(jīng)可以完美適配到服務器中,作為算法加速器使用。那到了I/O大會那天,谷歌一咬牙一跺腳,“我們也有NMT了!”
谷歌的TPU最早是不對外開放的,直到2018年才開始有云TPU業(yè)務。就是用戶可以在云上購買TPU,來快速解決需要張量計算的業(yè)務。2022年的時候,谷歌云上更新了TPU v4業(yè)務,意味著現(xiàn)在用戶也可以購買并使用上文提到的各種技術來享受更高的推理和訓練能力。
谷歌和Open AI最大的不同在于,前者有很強的業(yè)務要求,谷歌Gemini不會是一個賺錢的工具,它對于絕大多數(shù)人來說更像是個新鮮的高科技玩具。但是云TPU v4就不一樣了,截至3月31日的季度,谷歌云業(yè)務的收入為74億美元,運營利潤為1.91億美元,利潤率為2.5%。谷歌云業(yè)務實現(xiàn)首次盈利,但是利潤率還是太低,尤其是對比亞馬遜云28%的利潤。所以云TPU就成為了谷歌業(yè)務的一個大型增長點,一旦谷歌Gemini的效果反響良好,那么對谷歌云TPU業(yè)務的推廣來說,無疑是王炸。


產(chǎn)品與服務
聯(lián)系站長
關于我們