GPT-4是8x2200億參數(shù)的混合模型?這個小道消息今天傳瘋了 環(huán)球觀速訊
機(jī)器之心報道
(資料圖片僅供參考)
編輯:吳昕
George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些?「不那么酷」的東西。
「GPT-4 的參數(shù)量高達(dá) 100 萬億。」相信很多人還記得這個年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。
不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起?!?/p>
實際上,許多人相信并傳播這樣的謠言是因為近年來 AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機(jī)構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。
雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€錯誤答案,但他背后的 OpenAI 團(tuán)隊一直對 GPT-4 的真實參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報告也沒透露任何信息。
直到最近,這個謎團(tuán)疑似被「天才黑客」喬治?霍茲(George Hotz)捅破了。
喬治?霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動駕駛輔助系統(tǒng)的公司(comma.ai)的老板。
最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實是一個混合模型。具體來說,它采用了由 8 個專家模型組成的集成系統(tǒng),每個專家模型都有 2200 億個參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。
在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」,很多人可能也聽過,但只有 George Hotz 在公開場合將其說了出來。
「混合模型是你在無計可施的時候才會考慮的選項,」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因為無法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時間更長,效果已經(jīng)遞減。因此,他們采用了八個專家模型來提高性能?!怪劣谶@個混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。
為什么 OpenAI 對此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個模型」。
對于未來的趨勢,他認(rèn)為,人們會訓(xùn)練規(guī)模較小的模型,并通過長時間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。
目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。
有人從中得到了靈感,聲稱要訓(xùn)練一個 LLaMA 集合來對抗 GPT-4。
還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個由 8 個 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評論區(qū)留言。
關(guān)鍵詞:
相關(guān)閱讀
-
GPT-4是8x2200億參數(shù)的混合模型?這個小...
在采訪中,他談到了GPT-4,稱GPT-4其實是一個混合模型。具體來說,它采 -
當(dāng)前視訊!奮進(jìn)節(jié)!龍舟競渡代代傳承 ...
“一片笙歌催鬧晚,忽然鼓棹起中流”。龍舟競渡是端午節(jié)最具代表性... -
未來66天,四大生肖正財橫財一起來,有...
生肖雞的人有過濾和揀選的本能,財運(yùn)不錯,事業(yè)蒸蒸日上,財庫越來越豐 -
發(fā)揮好服務(wù)業(yè)穩(wěn)定器作用
第三產(chǎn)業(yè)用電量亮眼,折射出服務(wù)業(yè)恢復(fù)向好在支撐經(jīng)濟(jì)增長中的重要作用 -
怎么更新電腦系統(tǒng)?_怎么更新電腦系統(tǒng)|天...
1、以iPadmini為例,使用“iTunes”更新iPad的系統(tǒng)方法如下:打開電腦 -
全球頭條:步長制藥延期回復(fù)上交所“靈...
商譽(yù)是把雙刃劍,同時也是懸在上市公司頭頂是“達(dá)摩克利斯之劍”。... -
刺激,2人罰丟點球,2-4大冷門,中超第3...
賽前在中超排名第3的成都蓉城隊迎來了足協(xié)杯第3輪的較量,成都蓉城隊此 -
恒指公司修訂行業(yè)分類系統(tǒng)
App6月23日消息,恒生指數(shù)公司表示,目前恒生行業(yè)分類系統(tǒng)將上市公司證 -
【天天聚看點】“倡節(jié)儉 揚(yáng)新風(fēng)”端午...
“掃描這個二維碼,上傳‘小份菜’‘光盤’‘文明行為’的相關(guān)照片... -
“中國天眼”發(fā)現(xiàn)迄今軌道周期最短脈沖...
(中科院國家天文臺供圖)科學(xué)家利用“中國天眼”FAST發(fā)現(xiàn)了一個軌... -
終于知道為什么汪東城要反鎖房門了 飛...
終于知道為什么汪東城要反鎖房門了!看了邱耀樂這件事后終于知道為什么 -
英媒爆料國防大臣退出北約秘書長之爭后...
據(jù)英國《每日電訊報》22日爆料,有英國政府消息人士稱,美國總統(tǒng)拜登不 -
世界新動態(tài):K60至尊版入網(wǎng) | 一加Ace...
618大促可算是結(jié)束了,后面新機(jī)更新節(jié)奏也會有所恢復(fù),除了已經(jīng)官宣6 2 -
全球觀點:十大致癌蔬菜 十大致癌蔬菜...
1、十大致癌蔬菜有蘆筍、西蘭花、白菜、金針菜、馬齒莧、水芹菜、蕨菜 -
快訊:美股異動 | 優(yōu)品車(UCAR.US)漲...
截至發(fā)稿,該股漲超10%,報8 1美元 -
地質(zhì)災(zāi)害橙色、黃色預(yù)警齊發(fā)!這些區(qū)域...
新湖南,主流新媒體,移動新門戶。-分享自@新湖南 -
天天看點:貴州臺江:延伸法律服務(wù)職能...
民主與法制網(wǎng)訊(通訊員蒲奕秀)為進(jìn)一步增強(qiáng)未成年人尊法學(xué)法守法用法 -
我的駕駛員把五月份的運(yùn)費拿走了,該怎...
我的駕駛員把五月份的運(yùn)費拿走了,該怎么起訴他? -
ST天順(002800.SZ):控股孫公司獲得196...
格隆匯6月21日丨ST天順002800SZ公布下屬控股孫公司新疆漢通跨境物流有 -
最全名單!2023年西安學(xué)區(qū)劃分全匯總!...
根據(jù)今年西安市義務(wù)教育招生入學(xué)政策的要求,今天(6月21日),西安市