當(dāng)前位置： 蘇州資訊網(wǎng) >熱點(diǎn) >

Groq是芯片產(chǎn)業(yè)「噩夢(mèng)」的開始

時(shí)間：2024-03-04 17:38 閱讀量：9680

“蘋果砍掉造車項(xiàng)目，核心團(tuán)隊(duì)轉(zhuǎn)向人工智能?！?/p>

這是上周車圈，乃至整個(gè)科技圈最炸裂的新聞。

馬斯克表示“salute”，賈躍亭覺得“是個(gè)大錯(cuò)誤”，李想認(rèn)為“完全正確”，雷軍則深表“震驚”。

不過，就在大家都在為蘋果砍掉造車項(xiàng)目感到震驚時(shí)，或許更應(yīng)該被關(guān)注的是后者。

作為擁有萬億市值的全球科技巨頭，蘋果一直都不是新技術(shù)的創(chuàng)造者，但卻往往能成為新規(guī)則的制定者，這就是過往這半個(gè)世紀(jì)蘋果展現(xiàn)出的魔力。

這次，“后知后覺”的蘋果，也要開始重金投入生成式AI了。

實(shí)際上，在經(jīng)歷了這幾年的狂熱后，生成式AI正在撬動(dòng)整個(gè)科技產(chǎn)業(yè)的底層邏輯，例如芯片。

倘若生成式AI是未來的必然，是否應(yīng)該為全新的計(jì)算模式設(shè)計(jì)一顆配套芯片？

于是，在谷歌主導(dǎo)了TPU項(xiàng)目研發(fā)的Jonathon Ross，于2016年從谷歌離職創(chuàng)業(yè)，開始專心做這樣一顆AI芯片。

八年后，一次偶然的機(jī)會(huì)，這顆芯片得到了全世界的關(guān)注。

谷歌造芯計(jì)劃

談起AI，曾經(jīng)的谷歌，是商業(yè)帝國(guó)中當(dāng)之無愧的霸主。

這是因?yàn)楣雀杵鸺业闹鳂I(yè)——搜索業(yè)務(wù)，對(duì)人工智能技術(shù)一直有著很高的需求。

從這一點(diǎn)上來看，作為中國(guó)搜索領(lǐng)域*霸主的百度，也或多或少借鑒了谷歌的發(fā)展經(jīng)驗(yàn)，不僅在2017年的首屆AI開發(fā)者大會(huì)上喊出“All in AI”，還從AI芯片、AI算法、AI硬件，一路干到了大模型。

近幾年，百度還將一手培養(yǎng)起來的NLP專家王海峰，提拔到了百度CTO的位置上。

谷歌是在2016年由剛剛上任CEO不久的Sundar Pichai提出的“AI First”戰(zhàn)略。

在此之前，谷歌雖然奉行的是“Mobile First”戰(zhàn)略，但由于搜索、云計(jì)算，以及一些創(chuàng)新業(yè)務(wù)對(duì)AI的迫切需求，谷歌一直在向AI領(lǐng)域追加投入。

甚至在2014年砸了6億美元，收購了一家名為DeepMind的英國(guó)人工智能創(chuàng)業(yè)團(tuán)隊(duì)。

值得注意的是，這個(gè)團(tuán)隊(duì)在2010年成立時(shí)，創(chuàng)始人Demis Hassabis提出的*目標(biāo)，就是要。

而谷歌動(dòng)為人工智能，或者說當(dāng)時(shí)很時(shí)髦的機(jī)器學(xué)習(xí)算法研發(fā)一顆芯片的想法其實(shí)要更早，可以追溯到2006年。

起因依然是谷歌核心業(yè)務(wù)對(duì)AI算法的強(qiáng)需求，當(dāng)然還有另一個(gè)重要原因是，云計(jì)算技術(shù)這一年在谷歌內(nèi)部業(yè)務(wù)上開始被使用。

而究其根源，實(shí)際上是谷歌大量互聯(lián)網(wǎng)業(yè)務(wù)對(duì)“日益增長(zhǎng)的服務(wù)器算力資源需求”與“服務(wù)器算力資源無法滿足谷歌業(yè)務(wù)需求”之間的矛盾。

怎么解決這一矛盾？

好的算法谷歌自然不缺，畢竟有那么多優(yōu)秀的軟件工程師，然而，要想解決上面這一問題，*的方法還是軟硬一體，也就是蘋果那套玩法。

既然如此，那就別糾結(jié)了，開干吧。

谷歌是在2014年完成這顆芯片研發(fā)的，并為這顆基于ASIC架構(gòu)開發(fā)的AI加速專用處理器取了一個(gè)還不錯(cuò)的名字——TPU，張量處理器。

這顆芯片在研發(fā)成功后，直接被應(yīng)用到了谷歌的數(shù)據(jù)中心中，用上TPU的谷歌數(shù)據(jù)中心被Sundar Pichai稱為“AI First數(shù)據(jù)中心”。

這樣的數(shù)據(jù)中心，具體有怎樣的AI表現(xiàn)呢？

以前文提到被谷歌收購的DeepMind研發(fā)出曾轟動(dòng)一時(shí)的AlphaGo為例:

2015年10月，AlphaGo擊敗歐洲圍棋冠軍，當(dāng)時(shí)背后支撐AlphaGo的算力是由1202塊CPU+176塊GPU提供；

2016年3月，AlphaGo擊敗世界圍棋冠軍李世石，當(dāng)時(shí)背后支撐AlphaGo的算力則是由50塊TPU提供；

2017年5月，AlphaGo擊敗世界圍棋冠軍柯潔，當(dāng)時(shí)背后支撐AlphaGo的算力已經(jīng)是由4塊TPU提供。

由此可見，TPU對(duì)于機(jī)器學(xué)習(xí)算法，尤其是機(jī)器學(xué)習(xí)中的推理有多重要。

Jonathon Ross，正是谷歌TPU項(xiàng)目的主要設(shè)計(jì)者之一。

不過，就在谷歌TPU研發(fā)完成后，Jonathon Ross也從谷歌離職開始創(chuàng)業(yè)，并在投資人的幫助下，將谷歌TPU初創(chuàng)團(tuán)隊(duì)10人中的8人拉到了他的新團(tuán)隊(duì)中。

這位眼光毒辣的投資人是Chamath Palihapitiya。

八位“叛逃者”

Palihapitiya被視為是硅谷最耿直的年輕一代投資人，他是在2014年年底一次會(huì)議上聽說谷歌在搞TPU。

當(dāng)時(shí)他還在想，谷歌難不成要和英特爾、高通、英偉達(dá)這樣的芯片巨頭競(jìng)爭(zhēng)？

當(dāng)時(shí)離谷歌TPU正式對(duì)外發(fā)布還有兩年，市面上只有傳言，沒有實(shí)證。

在幾經(jīng)調(diào)查后，Palihapitiya在一定程度上驗(yàn)證了自己的猜想，并最終有了另外一個(gè)大膽的想法——找到這個(gè)團(tuán)隊(duì)的核心成員，搞一個(gè)AI芯片的創(chuàng)業(yè)項(xiàng)目。

作為一位頗具資源的投資人，他最擅長(zhǎng)的就是找人，不過，為了找出谷歌TPU核心團(tuán)隊(duì)人員名單，他還是花了將近一年半的時(shí)間。

之后，就有了Jonathon Ross在內(nèi)的谷歌TPU團(tuán)隊(duì)8位核心員工的離職組建新團(tuán)隊(duì)。

新團(tuán)隊(duì)名為Groq。

雖然頂著“谷歌TPU核心團(tuán)隊(duì)”的光環(huán)，但在Groq最初成立的幾年里，團(tuán)隊(duì)一直比較低調(diào)，也沒有弄出像DeepMind團(tuán)隊(duì)AlphaGo這樣的大動(dòng)靜。

媒體上對(duì)它的報(bào)道也都浮于表象，只是說它籌集了1000萬美元，在Delaware州注冊(cè)了公司，好像是在搞AI芯片。

CNBC在2017年找到Palihapitiya求證此事時(shí)，Palihapitiya也只是用“現(xiàn)在談具體細(xì)節(jié)還為時(shí)尚早”搪塞了過去。

不過，他還是確認(rèn)了這個(gè)團(tuán)隊(duì)確實(shí)在研發(fā)AI芯片，一種被稱作“下一代芯片”，“可以讓 Facebook、亞馬遜、特斯拉等公司利用機(jī)器學(xué)習(xí)做一些以前做不到的事情的芯片?！?/p>

這顆芯片真正炸場(chǎng)是在全球經(jīng)歷了百模大戰(zhàn)后，就在前不久谷歌和OpenAI掰手腕時(shí)，每秒能輸出超500個(gè)token的Groq意外走紅。

從響應(yīng)速度上來看，Groq比OpenAI的GPT-4和谷歌的Gemini快了10-18倍。

不過，對(duì)話內(nèi)容的質(zhì)量還是不如GPT-4和Gemini。

Groq響應(yīng)速度之所以這么快，正是因?yàn)槭褂昧俗匝械腉roqChip，這也是一個(gè)名為L(zhǎng)PU的新型處理器。

其實(shí)GroqChip實(shí)現(xiàn)的理論基礎(chǔ)，Groq團(tuán)隊(duì)在2020年發(fā)表的一篇論文中有提到，即TSP架構(gòu)。

Groq在2022年的另一篇論文中又著重介紹稱，這種架構(gòu)更適用于大規(guī)模機(jī)器學(xué)習(xí)。

彼時(shí)，百模大戰(zhàn)還未正式開啟，Jonathon Ross很可能也沒想過Groq會(huì)在兩年后因?yàn)榇竽Ｐ突鸨槿颉?/p>

不過，這不是關(guān)鍵。

關(guān)鍵在于，Groq不是一個(gè)計(jì)算密集型處理器，而是一個(gè)訪存密集型處理器。

芯片戰(zhàn)前傳

在講計(jì)算密集型處理器與訪存密集型處理器有何不同之前，我們先來聊一聊另一個(gè)古老的故事。

2023年10月，在夏威夷的驍龍峰會(huì)上，手機(jī)處理器巨頭高通在發(fā)布會(huì)上一反常態(tài)，花大篇幅講了一顆PC芯片的故事。

這不是高通*次向PC芯片大佬英特爾發(fā)起挑戰(zhàn)，雖然前幾次戰(zhàn)況慘烈，高通都未能如愿在主流PC市場(chǎng)打起多少水花。

但這次有了蘋果這個(gè)攪局者，讓高通有了更多信心。

實(shí)際上，作為芯片領(lǐng)域霸主，英特爾的隱患自其出生以來，就一直存在。

這和英特爾當(dāng)時(shí)的一個(gè)選擇有關(guān)。

1968年7月，硅谷“八叛徒”中的兩位——Robert Noyce和Gordon Moore從仙童半導(dǎo)體“叛逃”，創(chuàng)立了英特爾公司，并開始開展他們的芯片設(shè)計(jì)宏圖大業(yè)。

英特爾初入市場(chǎng)時(shí)，復(fù)雜指令集是當(dāng)時(shí)設(shè)計(jì)芯片*主流范式，沒得選的英特爾就開始使用復(fù)雜指令集設(shè)計(jì)芯片。

大約是在英特爾成立十年后，一種名為精簡(jiǎn)指令集被IBM研究中心John Cocke提出，后經(jīng)時(shí)任斯坦福大學(xué)校長(zhǎng)的John Hennessy寫進(jìn)了美國(guó)大學(xué)的計(jì)算機(jī)課本。

RISC一經(jīng)提出，學(xué)術(shù)界一致認(rèn)為RISC處理器要好于CISC處理器。

RISC處理器不僅解決了CISC處理器設(shè)計(jì)復(fù)雜，實(shí)現(xiàn)同樣性能需要更高集成度的問題，還一定程度上避免了由此帶來的功耗問題。

從技術(shù)實(shí)現(xiàn)上來看，也確實(shí)如此。

彼時(shí)，基于RISC處理器設(shè)計(jì)的工作站，運(yùn)行速度普遍快于基于CISC處理器設(shè)計(jì)的工作站，而且是肉眼可見的差距。

然而，當(dāng)時(shí)英特爾在CISC處理器上已經(jīng)有了十年的技術(shù)積累，轉(zhuǎn)向RISC處理器就意味著要放棄這樣的技術(shù)積累和好不容易構(gòu)建起的市場(chǎng)優(yōu)勢(shì)。

幾經(jīng)斟酌后，英特爾選擇了“逆技術(shù)潮流而行”，依然采用CISC設(shè)計(jì)處理器，這樣也保持了前向兼容。

英特爾之所以敢這么做，很大一個(gè)原因是當(dāng)時(shí)RISC陣營(yíng)沒有出現(xiàn)像ARM這樣強(qiáng)勁的對(duì)手。

英特爾最后也確實(shí)賭贏了。

前谷歌高級(jí)研究員吳軍曾指出，英特爾之所以能贏得這場(chǎng)戰(zhàn)爭(zhēng)有幾個(gè)原因:

*，英特爾堅(jiān)持自己系列產(chǎn)品的兼容性，積累了軟件生態(tài)；

第二，英特爾利用規(guī)模優(yōu)勢(shì)，大強(qiáng)度投入研發(fā)，英特爾每款處理器的研發(fā)投入都高于當(dāng)時(shí)市面上任意一款RISC處理器的投入；

第三，英特爾曾研發(fā)過兩款RISC處理器，但用戶依然選擇了英特爾的CISC處理器，事實(shí)證明，用戶對(duì)兼容性比對(duì)性能要求更高；

第四，RISC處理器陣營(yíng)當(dāng)時(shí)沒有像樣的對(duì)手。

總結(jié)而言，“英特爾不是靠技術(shù)，而是靠市場(chǎng)打贏了這場(chǎng)戰(zhàn)爭(zhēng)?！?/p>

然而，在PC市場(chǎng)敗北，并沒有影響RISC處理器的崛起，后來高通和ARM的出現(xiàn)，以及移動(dòng)互聯(lián)網(wǎng)的來臨，讓基于ARM架構(gòu)的RISC處理器最終成了智能手機(jī)的核心。

高通在智能手機(jī)市場(chǎng)一騎絕塵后，也開始試探性地進(jìn)攻PC市場(chǎng)，例如2018年推出驍龍8cx系列處理器，2019年推出驍龍7c、8c兩款處理器。

因?yàn)楸举|(zhì)上，基于ARM架構(gòu)的芯片確實(shí)有機(jī)會(huì)成為PC處理器。

不過，在和英特爾幾番交手后，高通最終沒討到什么好處，相關(guān)芯片后來也就不了了之。

然而，令英特爾沒有想到的是，2020年11月，蘋果基于ARM架構(gòu)的M1芯片一經(jīng)發(fā)布，徹底闖入了英特爾嚴(yán)防死守的腹地。

尤其是隨著蘋果Apple Silicon戰(zhàn)略的持續(xù)推進(jìn)，蘋果在這一年后，逐漸為自家PC換上了自己的M系列芯片，這意味著全球至少有近10%的PC，將邁入遲來的RISC時(shí)代。

正因有了蘋果的勝利，高通才借著AI PC的新窗口期，重新打起了自己的小算盤。

也是在這時(shí)，在這個(gè)AGI新時(shí)代，芯片產(chǎn)業(yè)還有一個(gè)更大的潛在變量也在醞釀中。

“噩夢(mèng)”的開始

什么是計(jì)算密集型？

計(jì)算密集型是指，算法模型的計(jì)算密度較大，算法模型訪存少而計(jì)算量大，性能受到處理器*計(jì)算峰值限制的計(jì)算類型。

什么是訪存密集型？

訪存密集型是指，算法模型的計(jì)算密度較小，算法模型訪存多而計(jì)算量少，性能受到處理器內(nèi)存帶寬限制的計(jì)算類型。

由于網(wǎng)絡(luò)、硬件等在過去40年里一直保持著超高速發(fā)展，算力一直處于供不應(yīng)求狀態(tài)，計(jì)算密集型處理器也就成了主流。

然而，大模型的出現(xiàn)，改變了這一現(xiàn)狀。

在中，我們提到過:

如今的大模型追根溯源都是基于Transformer架構(gòu)，作為自回歸模型，基于Transformer的AI模型生成每一個(gè)新token，都需要將所有輸入過的token計(jì)算一遍。

為了避免重復(fù)計(jì)算，在實(shí)際應(yīng)用時(shí)，AI模型會(huì)將實(shí)際計(jì)算過的數(shù)據(jù)預(yù)存下來，這就導(dǎo)致這類模型對(duì)訪存的需求要求普遍會(huì)很高。

這就導(dǎo)致了現(xiàn)在基于傳統(tǒng)架構(gòu)的計(jì)算密集型AI芯片難以滿足這樣的需求。

GroqChip，正是一款訪存密集型處理器。

Groq團(tuán)隊(duì)解決當(dāng)下大模型普遍遇到的“性能受到處理器內(nèi)存帶寬限制”問題的方法，是換用低帶寬存儲(chǔ)器SRAM。

相較于GPU使用的高帶寬存儲(chǔ)器HBM，SRAM的運(yùn)行速度至少要快20倍，從而大大提高了訪存帶寬。

這就是為什么Groq每秒能輸出超500個(gè)token的原因。

然而，由于GroqChip采用的SRAM帶寬只有230MB，實(shí)際上相當(dāng)于是在用空間換時(shí)間。

前阿里技術(shù)副總裁賈揚(yáng)清就曾指出，Groq在運(yùn)行Llama-2 70B模型時(shí)，需要305張Groq卡才足夠，而用H100則只需要8張卡。從目前的價(jià)格來看，這意味著在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。

不過，可以看到的是，Groq只是在百模大戰(zhàn)正酣、AGI被提上日程的現(xiàn)在一次大膽的嘗試。

也可以說，Groq是芯片產(chǎn)業(yè)這場(chǎng)變革“噩夢(mèng)”的開始。

接下來，將會(huì)有更多專為大模型設(shè)計(jì)的訪存密集型芯片出現(xiàn)。

不知道芯片巨頭們，準(zhǔn)備好了嗎？

來源: 投資界編輯: 宋元明清

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場(chǎng)無關(guān)。僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱點(diǎn)資訊

蘇州
江蘇
財(cái)經(jīng)
資訊
旅游
文化

周莊今晚亮燈“燈”你,共度佳節(jié)

第十四屆全國(guó)運(yùn)動(dòng)會(huì)開幕目前已決

億聯(lián)銀行同業(yè)交流會(huì)開幕，全國(guó)各地

【傳承民族經(jīng)典弘揚(yáng)中華武術(shù)】蘇

“鷺島”為家：蒼鷺的東北安家之旅

國(guó)家大劇院周末音樂會(huì)迎來600場(chǎng)

欧美精品一区二区三区_孕妇孕妇aaaaa级真人片视频_在线观看亚洲免费视频_日本亚州视频在线八a

Groq是芯片產(chǎn)業(yè)「噩夢(mèng)」的開始

最新資訊

新聞排行

熱點(diǎn)圖片