“蘋果砍掉造車項(xiàng)目,核心團(tuán)隊(duì)轉(zhuǎn)向人工智能?!?/p>
這是上周車圈,乃至整個(gè)科技圈最炸裂的新聞。
馬斯克表示“salute”,賈躍亭覺得“是個(gè)大錯(cuò)誤”,李想認(rèn)為“完全正確”,雷軍則深表“震驚”。
不過,就在大家都在為蘋果砍掉造車項(xiàng)目感到震驚時(shí),或許更應(yīng)該被關(guān)注的是后者。
作為擁有萬億市值的全球科技巨頭,蘋果一直都不是新技術(shù)的創(chuàng)造者,但卻往往能成為新規(guī)則的制定者,這就是過往這半個(gè)世紀(jì)蘋果展現(xiàn)出的魔力。
這次,“后知后覺”的蘋果,也要開始重金投入生成式AI了。
實(shí)際上,在經(jīng)歷了這幾年的狂熱后,生成式AI正在撬動(dòng)整個(gè)科技產(chǎn)業(yè)的底層邏輯,例如芯片。
倘若生成式AI是未來的必然,是否應(yīng)該為全新的計(jì)算模式設(shè)計(jì)一顆配套芯片?
于是,在谷歌主導(dǎo)了TPU項(xiàng)目研發(fā)的Jonathon Ross,于2016年從谷歌離職創(chuàng)業(yè),開始專心做這樣一顆AI芯片。
八年后,一次偶然的機(jī)會(huì),這顆芯片得到了全世界的關(guān)注。
01
谷歌造芯計(jì)劃
談起AI,曾經(jīng)的谷歌,是商業(yè)帝國(guó)中當(dāng)之無愧的霸主。
這是因?yàn)楣雀杵鸺业闹鳂I(yè)——搜索業(yè)務(wù),對(duì)人工智能技術(shù)一直有著很高的需求。
從這一點(diǎn)上來看,作為中國(guó)搜索領(lǐng)域*霸主的百度,也或多或少借鑒了谷歌的發(fā)展經(jīng)驗(yàn),不僅在2017年的首屆AI開發(fā)者大會(huì)上喊出“All in AI”,還從AI芯片、AI算法、AI硬件,一路干到了大模型。
近幾年,百度還將一手培養(yǎng)起來的NLP專家王海峰,提拔到了百度CTO的位置上。
谷歌是在2016年由剛剛上任CEO不久的Sundar Pichai提出的“AI First”戰(zhàn)略。
在此之前,谷歌雖然奉行的是“Mobile First”戰(zhàn)略,但由于搜索、云計(jì)算,以及一些創(chuàng)新業(yè)務(wù)對(duì)AI的迫切需求,谷歌一直在向AI領(lǐng)域追加投入。
甚至在2014年砸了6億美元,收購了一家名為DeepMind的英國(guó)人工智能創(chuàng)業(yè)團(tuán)隊(duì)。
值得注意的是,這個(gè)團(tuán)隊(duì)在2010年成立時(shí),創(chuàng)始人Demis Hassabis提出的*目標(biāo),就是要。
而谷歌動(dòng)為人工智能,或者說當(dāng)時(shí)很時(shí)髦的機(jī)器學(xué)習(xí)算法研發(fā)一顆芯片的想法其實(shí)要更早,可以追溯到2006年。
起因依然是谷歌核心業(yè)務(wù)對(duì)AI算法的強(qiáng)需求,當(dāng)然還有另一個(gè)重要原因是,云計(jì)算技術(shù)這一年在谷歌內(nèi)部業(yè)務(wù)上開始被使用。
而究其根源,實(shí)際上是谷歌大量互聯(lián)網(wǎng)業(yè)務(wù)對(duì)“日益增長(zhǎng)的服務(wù)器算力資源需求”與“服務(wù)器算力資源無法滿足谷歌業(yè)務(wù)需求”之間的矛盾。
怎么解決這一矛盾?
好的算法谷歌自然不缺,畢竟有那么多優(yōu)秀的軟件工程師,然而,要想解決上面這一問題,*的方法還是軟硬一體,也就是蘋果那套玩法。
既然如此,那就別糾結(jié)了,開干吧。
谷歌是在2014年完成這顆芯片研發(fā)的,并為這顆基于ASIC架構(gòu)開發(fā)的AI加速專用處理器取了一個(gè)還不錯(cuò)的名字——TPU,張量處理器。
這顆芯片在研發(fā)成功后,直接被應(yīng)用到了谷歌的數(shù)據(jù)中心中,用上TPU的谷歌數(shù)據(jù)中心被Sundar Pichai稱為“AI First數(shù)據(jù)中心”。
這樣的數(shù)據(jù)中心,具體有怎樣的AI表現(xiàn)呢?
以前文提到被谷歌收購的DeepMind研發(fā)出曾轟動(dòng)一時(shí)的AlphaGo為例:
2015年10月,AlphaGo擊敗歐洲圍棋冠軍,當(dāng)時(shí)背后支撐AlphaGo的算力是由1202塊CPU+176塊GPU提供;
2016年3月,AlphaGo擊敗世界圍棋冠軍李世石,當(dāng)時(shí)背后支撐AlphaGo的算力則是由50塊TPU提供;
2017年5月,AlphaGo擊敗世界圍棋冠軍柯潔,當(dāng)時(shí)背后支撐AlphaGo的算力已經(jīng)是由4塊TPU提供。
由此可見,TPU對(duì)于機(jī)器學(xué)習(xí)算法,尤其是機(jī)器學(xué)習(xí)中的推理有多重要。
Jonathon Ross,正是谷歌TPU項(xiàng)目的主要設(shè)計(jì)者之一。
不過,就在谷歌TPU研發(fā)完成后,Jonathon Ross也從谷歌離職開始創(chuàng)業(yè),并在投資人的幫助下,將谷歌TPU初創(chuàng)團(tuán)隊(duì)10人中的8人拉到了他的新團(tuán)隊(duì)中。
這位眼光毒辣的投資人是Chamath Palihapitiya。
02
八位“叛逃者”
Palihapitiya被視為是硅谷最耿直的年輕一代投資人,他是在2014年年底一次會(huì)議上聽說谷歌在搞TPU。
當(dāng)時(shí)他還在想,谷歌難不成要和英特爾、高通、英偉達(dá)這樣的芯片巨頭競(jìng)爭(zhēng)?
當(dāng)時(shí)離谷歌TPU正式對(duì)外發(fā)布還有兩年,市面上只有傳言,沒有實(shí)證。
在幾經(jīng)調(diào)查后,Palihapitiya在一定程度上驗(yàn)證了自己的猜想,并最終有了另外一個(gè)大膽的想法——找到這個(gè)團(tuán)隊(duì)的核心成員,搞一個(gè)AI芯片的創(chuàng)業(yè)項(xiàng)目。
作為一位頗具資源的投資人,他最擅長(zhǎng)的就是找人,不過,為了找出谷歌TPU核心團(tuán)隊(duì)人員名單,他還是花了將近一年半的時(shí)間。
之后,就有了Jonathon Ross在內(nèi)的谷歌TPU團(tuán)隊(duì)8位核心員工的離職組建新團(tuán)隊(duì)。
新團(tuán)隊(duì)名為Groq。
雖然頂著“谷歌TPU核心團(tuán)隊(duì)”的光環(huán),但在Groq最初成立的幾年里,團(tuán)隊(duì)一直比較低調(diào),也沒有弄出像DeepMind團(tuán)隊(duì)AlphaGo這樣的大動(dòng)靜。
媒體上對(duì)它的報(bào)道也都浮于表象,只是說它籌集了1000萬美元,在Delaware州注冊(cè)了公司,好像是在搞AI芯片。
CNBC在2017年找到Palihapitiya求證此事時(shí),Palihapitiya也只是用“現(xiàn)在談具體細(xì)節(jié)還為時(shí)尚早”搪塞了過去。
不過,他還是確認(rèn)了這個(gè)團(tuán)隊(duì)確實(shí)在研發(fā)AI芯片,一種被稱作“下一代芯片”,“可以讓 Facebook、亞馬遜、特斯拉等公司利用機(jī)器學(xué)習(xí)做一些以前做不到的事情的芯片?!?/p>
這顆芯片真正炸場(chǎng)是在全球經(jīng)歷了百模大戰(zhàn)后,就在前不久谷歌和OpenAI掰手腕時(shí),每秒能輸出超500個(gè)token的Groq意外走紅。
從響應(yīng)速度上來看,Groq比OpenAI的GPT-4和谷歌的Gemini快了10-18倍。
不過,對(duì)話內(nèi)容的質(zhì)量還是不如GPT-4和Gemini。
Groq響應(yīng)速度之所以這么快,正是因?yàn)槭褂昧俗匝械腉roqChip,這也是一個(gè)名為L(zhǎng)PU的新型處理器。
其實(shí)GroqChip實(shí)現(xiàn)的理論基礎(chǔ),Groq團(tuán)隊(duì)在2020年發(fā)表的一篇論文中有提到,即TSP架構(gòu)。
Groq在2022年的另一篇論文中又著重介紹稱,這種架構(gòu)更適用于大規(guī)模機(jī)器學(xué)習(xí)。
彼時(shí),百模大戰(zhàn)還未正式開啟,Jonathon Ross很可能也沒想過Groq會(huì)在兩年后因?yàn)榇竽P突鸨槿颉?/p>
不過,這不是關(guān)鍵。
關(guān)鍵在于,Groq不是一個(gè)計(jì)算密集型處理器,而是一個(gè)訪存密集型處理器。
03
芯片戰(zhàn)前傳
在講計(jì)算密集型處理器與訪存密集型處理器有何不同之前,我們先來聊一聊另一個(gè)古老的故事。
2023年10月,在夏威夷的驍龍峰會(huì)上,手機(jī)處理器巨頭高通在發(fā)布會(huì)上一反常態(tài),花大篇幅講了一顆PC芯片的故事。
這不是高通*次向PC芯片大佬英特爾發(fā)起挑戰(zhàn),雖然前幾次戰(zhàn)況慘烈,高通都未能如愿在主流PC市場(chǎng)打起多少水花。
但這次有了蘋果這個(gè)攪局者,讓高通有了更多信心。
實(shí)際上,作為芯片領(lǐng)域霸主,英特爾的隱患自其出生以來,就一直存在。
這和英特爾當(dāng)時(shí)的一個(gè)選擇有關(guān)。
1968年7月,硅谷“八叛徒”中的兩位——Robert Noyce和Gordon Moore從仙童半導(dǎo)體“叛逃”,創(chuàng)立了英特爾公司,并開始開展他們的芯片設(shè)計(jì)宏圖大業(yè)。
英特爾初入市場(chǎng)時(shí),復(fù)雜指令集是當(dāng)時(shí)設(shè)計(jì)芯片*主流范式,沒得選的英特爾就開始使用復(fù)雜指令集設(shè)計(jì)芯片。
大約是在英特爾成立十年后,一種名為精簡(jiǎn)指令集被IBM研究中心John Cocke提出,后經(jīng)時(shí)任斯坦福大學(xué)校長(zhǎng)的John Hennessy寫進(jìn)了美國(guó)大學(xué)的計(jì)算機(jī)課本。
RISC一經(jīng)提出,學(xué)術(shù)界一致認(rèn)為RISC處理器要好于CISC處理器。
RISC處理器不僅解決了CISC處理器設(shè)計(jì)復(fù)雜,實(shí)現(xiàn)同樣性能需要更高集成度的問題,還一定程度上避免了由此帶來的功耗問題。
從技術(shù)實(shí)現(xiàn)上來看,也確實(shí)如此。
彼時(shí),基于RISC處理器設(shè)計(jì)的工作站,運(yùn)行速度普遍快于基于CISC處理器設(shè)計(jì)的工作站,而且是肉眼可見的差距。
然而,當(dāng)時(shí)英特爾在CISC處理器上已經(jīng)有了十年的技術(shù)積累,轉(zhuǎn)向RISC處理器就意味著要放棄這樣的技術(shù)積累和好不容易構(gòu)建起的市場(chǎng)優(yōu)勢(shì)。
幾經(jīng)斟酌后,英特爾選擇了“逆技術(shù)潮流而行”,依然采用CISC設(shè)計(jì)處理器,這樣也保持了前向兼容。
英特爾之所以敢這么做,很大一個(gè)原因是當(dāng)時(shí)RISC陣營(yíng)沒有出現(xiàn)像ARM這樣強(qiáng)勁的對(duì)手。
英特爾最后也確實(shí)賭贏了。
前谷歌高級(jí)研究員吳軍曾指出,英特爾之所以能贏得這場(chǎng)戰(zhàn)爭(zhēng)有幾個(gè)原因:
*,英特爾堅(jiān)持自己系列產(chǎn)品的兼容性,積累了軟件生態(tài);
第二,英特爾利用規(guī)模優(yōu)勢(shì),大強(qiáng)度投入研發(fā),英特爾每款處理器的研發(fā)投入都高于當(dāng)時(shí)市面上任意一款RISC處理器的投入;
第三,英特爾曾研發(fā)過兩款RISC處理器,但用戶依然選擇了英特爾的CISC處理器,事實(shí)證明,用戶對(duì)兼容性比對(duì)性能要求更高;
第四,RISC處理器陣營(yíng)當(dāng)時(shí)沒有像樣的對(duì)手。
總結(jié)而言,“英特爾不是靠技術(shù),而是靠市場(chǎng)打贏了這場(chǎng)戰(zhàn)爭(zhēng)?!?/p>
然而,在PC市場(chǎng)敗北,并沒有影響RISC處理器的崛起,后來高通和ARM的出現(xiàn),以及移動(dòng)互聯(lián)網(wǎng)的來臨,讓基于ARM架構(gòu)的RISC處理器最終成了智能手機(jī)的核心。
高通在智能手機(jī)市場(chǎng)一騎絕塵后,也開始試探性地進(jìn)攻PC市場(chǎng),例如2018年推出驍龍8cx系列處理器,2019年推出驍龍7c、8c兩款處理器。
因?yàn)楸举|(zhì)上,基于ARM架構(gòu)的芯片確實(shí)有機(jī)會(huì)成為PC處理器。
不過,在和英特爾幾番交手后,高通最終沒討到什么好處,相關(guān)芯片后來也就不了了之。
然而,令英特爾沒有想到的是,2020年11月,蘋果基于ARM架構(gòu)的M1芯片一經(jīng)發(fā)布,徹底闖入了英特爾嚴(yán)防死守的腹地。
尤其是隨著蘋果Apple Silicon戰(zhàn)略的持續(xù)推進(jìn),蘋果在這一年后,逐漸為自家PC換上了自己的M系列芯片,這意味著全球至少有近10%的PC,將邁入遲來的RISC時(shí)代。
正因有了蘋果的勝利,高通才借著AI PC的新窗口期,重新打起了自己的小算盤。
也是在這時(shí),在這個(gè)AGI新時(shí)代,芯片產(chǎn)業(yè)還有一個(gè)更大的潛在變量也在醞釀中。
04
“噩夢(mèng)”的開始
什么是計(jì)算密集型?
計(jì)算密集型是指,算法模型的計(jì)算密度較大,算法模型訪存少而計(jì)算量大,性能受到處理器*計(jì)算峰值限制的計(jì)算類型。
什么是訪存密集型?
訪存密集型是指,算法模型的計(jì)算密度較小,算法模型訪存多而計(jì)算量少,性能受到處理器內(nèi)存帶寬限制的計(jì)算類型。
由于網(wǎng)絡(luò)、硬件等在過去40年里一直保持著超高速發(fā)展,算力一直處于供不應(yīng)求狀態(tài),計(jì)算密集型處理器也就成了主流。
然而,大模型的出現(xiàn),改變了這一現(xiàn)狀。
在中,我們提到過:
如今的大模型追根溯源都是基于Transformer架構(gòu),作為自回歸模型,基于Transformer的AI模型生成每一個(gè)新token,都需要將所有輸入過的token計(jì)算一遍。
為了避免重復(fù)計(jì)算,在實(shí)際應(yīng)用時(shí),AI模型會(huì)將實(shí)際計(jì)算過的數(shù)據(jù)預(yù)存下來,這就導(dǎo)致這類模型對(duì)訪存的需求要求普遍會(huì)很高。
這就導(dǎo)致了現(xiàn)在基于傳統(tǒng)架構(gòu)的計(jì)算密集型AI芯片難以滿足這樣的需求。
GroqChip,正是一款訪存密集型處理器。
Groq團(tuán)隊(duì)解決當(dāng)下大模型普遍遇到的“性能受到處理器內(nèi)存帶寬限制”問題的方法,是換用低帶寬存儲(chǔ)器SRAM。
相較于GPU使用的高帶寬存儲(chǔ)器HBM,SRAM的運(yùn)行速度至少要快20倍,從而大大提高了訪存帶寬。
這就是為什么Groq每秒能輸出超500個(gè)token的原因。
然而,由于GroqChip采用的SRAM帶寬只有230MB,實(shí)際上相當(dāng)于是在用空間換時(shí)間。
前阿里技術(shù)副總裁賈揚(yáng)清就曾指出,Groq在運(yùn)行Llama-2 70B模型時(shí),需要305張Groq卡才足夠,而用H100則只需要8張卡。從目前的價(jià)格來看,這意味著在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
不過,可以看到的是,Groq只是在百模大戰(zhàn)正酣、AGI被提上日程的現(xiàn)在一次大膽的嘗試。
也可以說,Groq是芯片產(chǎn)業(yè)這場(chǎng)變革“噩夢(mèng)”的開始。
接下來,將會(huì)有更多專為大模型設(shè)計(jì)的訪存密集型芯片出現(xiàn)。
不知道芯片巨頭們,準(zhǔn)備好了嗎?
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。