一区二区三区,国产精品,亚洲中文字幕乱码av波多ji,亚洲国产成人综合精品,尹人香蕉99久久综合网站,亚洲综合国产成人丁香五月激情

鑫昌軟件園鑫昌秘籍 → Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數(shù)減半,一張 H100 就能跑,還有兩萬億參數(shù)超大杯

Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數(shù)減半,一張 H100 就能跑,還有兩萬億參數(shù)超大杯

2025-04-07 11:33:52      小編:鑫昌軟件園      

AI 不過周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就這么突然發(fā)布了。

這是 Meta 首個(gè)基于 MoE 架構(gòu)模型系列,目前共有三個(gè)款:

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個(gè)尚未推出,只是預(yù)告,但 Meta 已經(jīng)毫不避諱地稱前兩者是“我們迄今為止最先進(jìn)的型號(hào),也是同類產(chǎn)品中最好的多模態(tài)型號(hào)”。

詳細(xì)來看一些關(guān)鍵詞 ——

    Llama 4 Scout,16 位專家的 170 億激活參數(shù)的多模態(tài)模型,單個(gè) H100 GPU 可運(yùn)行,同類 SOTA,并擁有 10M 上下文窗口。

    Llama 4 Maverick,128 位專家的 170 億激活參數(shù)多模態(tài)模型,擊敗 GPT-4o 和 Gemini 2.0 Flash,與 DeepSeek-V3 同等代碼能力參數(shù)只要一半,主打與 DeepSeek 一樣的性價(jià)比,單個(gè) H100 主機(jī)即可運(yùn)行。

    Llama 4 Behemoth:2 萬億參數(shù)的超大超強(qiáng)模型,以上二者都由這個(gè)模型蒸餾而來;目前還在訓(xùn)練中;多個(gè)基準(zhǔn)測(cè)試超過 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

    Meta 官推激情表示,這些 Llama 4 模型標(biāo)志著 Llama 生態(tài)系統(tǒng)新時(shí)代 —— 原生多模態(tài) AI 創(chuàng)新的開始。

    與此同時(shí),大模型競(jìng)技場(chǎng)排名迎來一輪更新。

    此次發(fā)布的 Llama 4 Maverick,在困難提示、編碼、數(shù)學(xué)、創(chuàng)意寫作方面并列第一;得分 1417,不僅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),還成為史上第 4 個(gè)突破 1400 分的模型;。

    而且跑分明確 —— 超越 DeepSeek-V3,實(shí)現(xiàn)亮相即登頂,直接成為排名第一的開源模型。

    谷歌 CEO 劈柴哥第一時(shí)間發(fā)來賀電:

    AI 世界,從不平淡!

    恭喜呀!前進(jìn)吧,Llama 4 團(tuán)隊(duì)!

    中杯、大杯首批亮相

    了解了 Llama 4 家族全體成員后,我們先來見識(shí)一下首批發(fā)布的 2 個(gè)模型:

      中杯

      :Llama 4 Scout(偵查兵 Llama 4)。

      大杯

      :Llama 4 Maverick(特立獨(dú)行的 Llama 4)。

      兩者均已能在 Llama 官網(wǎng)和抱抱臉上下載。

      我們抓取并提煉出這倆模型的一些特點(diǎn):

      Meta 首批 MoE 架構(gòu)模型

      這是 Llama 系列,第一批使用 MoE(混合專家模型)構(gòu)建的模型。

      中杯 Llama 4 Scout 有 17B 激活參數(shù),擁有 16 個(gè)專家模型。

      大杯 Llama 4 Maverick 擁有 17B 激活參數(shù),擁有 128 個(gè)專家模型。

      至于還沒和大家正式見面的超大杯 Llama 4 Maverick,擁有 288B 激活參數(shù),擁有 16 個(gè)專家模型。

      非常長(zhǎng) ———— 的上下文

      Llama 4 系列,均具有很長(zhǎng)的上下文窗口。

      這一點(diǎn)主要體現(xiàn)在 Meta 公布的中杯 Llama 4 Scout 的詳細(xì)數(shù)據(jù)里:

      Llama 4 Scout 提供了行業(yè)領(lǐng)先的 100 萬上下文窗口。

      經(jīng)過預(yù)訓(xùn)練和后訓(xùn)練,Llama 4 Scout 長(zhǎng)度為 256K,這使基本模型具有高級(jí)長(zhǎng)度泛化能力。

      這個(gè)配置,讓它在廣泛的測(cè)評(píng)集上,比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的結(jié)果更優(yōu)秀。

      它在「大海撈針」測(cè)試上的表現(xiàn)如下:

      結(jié)果如下:

      那么之前的 Llama 系列模型的上下文窗口情況呢?

        Llama 1,上下文窗口為 2k;

        Llama 2,上下文窗口默認(rèn)為 4k,但可以通過微調(diào)等可以拓展到 32k;

        Llama 3,上下文窗口是 8k,后來 Llama 3.1 的長(zhǎng)文本能力拓展到了 128k。

        Meta 官方博客中是這么寫的:

        (Llama 4 的長(zhǎng)上下文)開辟了一個(gè)充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動(dòng)以執(zhí)行個(gè)性化任務(wù)以及對(duì)龐大的代碼庫(kù)進(jìn)行推理。

        原生多模態(tài)設(shè)計(jì)

        Llama 4 系列,開啟了 Llama 的原生多模態(tài)時(shí)代。

        而已經(jīng)公開對(duì)外的中杯和大杯,被官方稱為“輕量級(jí)原生多模態(tài)模型”。

        給用戶的體驗(yàn)就是,上傳一張圖片,可以直接在對(duì)話框中提問關(guān)于這張圖片的各種問題。

        不是我說,Llama 終于長(zhǎng)眼睛了?。?!

        上面這張動(dòng)圖展示的僅僅是最基礎(chǔ)的,“為難”程都升級(jí)也不怕。

        比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個(gè)活。

        它會(huì)很快地把適用的工具圈出來:

        要認(rèn)顏色 + 認(rèn)小鳥,也沒在怕的:

        中杯和大杯都在官方介紹中被打上了“世界上同類產(chǎn)品中最好的多模態(tài)模型”的 tag。

        來看和 Llama 系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite 的對(duì)比結(jié)果 ——

        可以看到,在各個(gè)測(cè)評(píng)集上的表現(xiàn),Llama 4 Scout 樣樣都是新 SOTA。

        語言天賦 Max

        經(jīng)過了預(yù)訓(xùn)練和微調(diào)的 Llama 4,掌握全球 12 種語言,以此“方便全球開發(fā)者的部署”。

        比 DeepSeek 更狠的“AI 模型拼多多”

        一定要跟大家分享的一個(gè)細(xì)節(jié),Meta 這次在模型 API 價(jià)格方面,下狠手了!

        先說結(jié)果:

        系列超大杯 Llama 4 Maverick,不僅超越了同類型號(hào)其它模型,價(jià)格還非常之美麗。

        更直觀地來看這張表格,真的狠過 DeepSeek—— 從性能到價(jià)格各個(gè)緯度。

        要知道,超大杯 Llama 4 Behemoth 屬于是 Llama 4 系列的教師模型。

        如果說中杯和大杯是輕量級(jí)選手,這位就是絕對(duì)的重磅玩家。

        288B 激活參數(shù),16 個(gè)專家模型。

        最重要的是,它的總參數(shù)量高達(dá) 2000B!

        在數(shù)學(xué)、多語言和圖像基準(zhǔn)測(cè)試中,它提供了非推理模型的最先進(jìn)性能。

        當(dāng)“最?!焙汀白畋阋恕睌[在一起的時(shí)候,試問哪位開發(fā)者會(huì)不心動(dòng)?(doge)

        訓(xùn)練細(xì)節(jié)

        用他們自己的話來說,Llama 系列是進(jìn)行了徹底的重新設(shè)計(jì)。目前第一組 LIama 4 系列模型,他們也公布了具體的訓(xùn)練細(xì)節(jié)。

        預(yù)訓(xùn)練

        他們首次使用混合專家 MoE 架構(gòu),在 MoE 架構(gòu)中,單個(gè) token 僅激活總參數(shù)的一小部分。MoE 架構(gòu)在訓(xùn)練和推理方面具有更高的計(jì)算效率,固定訓(xùn)練 FLOP 成本情況下質(zhì)量更高。

        比如,Llama 4Maverick 模型有 17B 個(gè)激活參數(shù)和 400B 個(gè)總參數(shù)。他們使用交替的密集層和混合專家 (MoE) 層來提高推理效率。

        MoE 層使用 128 位路由(Routed)專家和一位共享專家。每個(gè)令牌都會(huì)發(fā)送給共享專家以及 128 位路由(Routed)專家之一。

        因此,雖然所有參數(shù)都存儲(chǔ)在內(nèi)存中,但在為這些模型提供服務(wù)時(shí),只有總參數(shù)的子集被激活。

        這通過降低模型服務(wù)成本和延遲來提高推理效率 ——Llama 4 Maverick 可以在單個(gè) H100 DGX 主機(jī)上運(yùn)行,以便于部署,也可以通過分布式推理實(shí)現(xiàn)最高效率。

        他們?cè)缙谌诤希瑢⑽谋竞鸵曈X token 無縫集成到統(tǒng)一模型中。

        他們開發(fā)了一種新的訓(xùn)練技術(shù):MetaP,可以設(shè)置關(guān)鍵模型超參數(shù),比如每層的學(xué)習(xí)率和初始化尺度。

        結(jié)果發(fā)現(xiàn),所選的超參數(shù)能在批量大小、模型寬度、深度和訓(xùn)練 token 的不同值之間很好地?cái)U(kuò)展和泛化 ——

        Llama 4 通過在 200 種語言(包括 100 多種語言,每種語言有超過 10 億個(gè)詞庫(kù))上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了開源微調(diào)工作,多語言詞庫(kù)總量是 Llama 3 的 10 倍。

        此外,他們使用 FP8 精度進(jìn)行高效模型訓(xùn)練,同時(shí)不犧牲質(zhì)量并確保模型 FLOPs 的高利用率 — 在使用 FP8 和 32K GPU 預(yù)訓(xùn)練 Llama 4 Behemoth 模型時(shí),結(jié)果他們實(shí)現(xiàn)了 390TFLOPs / GPU。

        用于訓(xùn)練的整體混合數(shù)據(jù)包括 30 多萬億個(gè) token,是 Llama 3 預(yù)訓(xùn)練混合物的兩倍多,其中包括各種文本、圖像和視頻數(shù)據(jù)集。

        在所謂的“中期訓(xùn)練”中繼續(xù)訓(xùn)練模型,通過新的訓(xùn)練方法(包括使用專業(yè)數(shù)據(jù)集進(jìn)行長(zhǎng)上下文擴(kuò)展)來提高模型的核心功能。

        后訓(xùn)練

        后訓(xùn)練階段,他們提出一個(gè)課程策略,與單個(gè)模式專家模型相比,該策略不會(huì)犧牲性能。

        在 Llama 4 中,采用了一種不同的方法來改造我們的后期訓(xùn)練管道:

        輕量級(jí)監(jiān)督微調(diào) (SFT)> 在線強(qiáng)化學(xué)習(xí) (RL)> 輕量級(jí)直接偏好優(yōu)化 (DPO)。

        一個(gè)關(guān)鍵的教訓(xùn)是,SFT 和 DPO 可能會(huì)過度約束模型,限制在線強(qiáng)化學(xué)習(xí)階段的探索,并導(dǎo)致精度降低,尤其是在推理、編碼和數(shù)學(xué)領(lǐng)域。

        為了解決這個(gè)問題,他們使用 Llama 模型作為評(píng)判標(biāo)準(zhǔn),刪除了 50% 以上被標(biāo)記為簡(jiǎn)單的數(shù)據(jù),并對(duì)剩余的較難數(shù)據(jù)集進(jìn)行了輕量級(jí) SFT 處理。

        在隨后的在線強(qiáng)化學(xué)習(xí)階段,通過仔細(xì)選擇較難的提示,我們實(shí)現(xiàn)了性能上的飛躍。

        此外,他們還實(shí)施了一種連續(xù)的在線強(qiáng)化學(xué)習(xí)策略,即交替訓(xùn)練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實(shí)證明,這種策略在計(jì)算量和準(zhǔn)確性的權(quán)衡方面非常有利。

        然后,他們采用輕量級(jí) DPO 來處理與模型響應(yīng)質(zhì)量相關(guān)的拐角情況,從而有效地在模型的智能性和對(duì)話能力之間實(shí)現(xiàn)了良好的平衡。流水線架構(gòu)和帶有自適應(yīng)數(shù)據(jù)過濾功能的連續(xù)在線 RL 策略,最后造就了現(xiàn)在的 LIama 4。

        總結(jié)來看,Llama 4 架構(gòu)的一項(xiàng)關(guān)鍵創(chuàng)新是使用交錯(cuò)注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時(shí)間溫度縮放來增強(qiáng)長(zhǎng)度泛化。

        這些他們稱之為 iRoPE 架構(gòu),其中“i”代表“交錯(cuò)”注意力層,突出了支持“無限”上下文長(zhǎng)度的長(zhǎng)期目標(biāo),而“RoPE ”指的是大多數(shù)層中采用的旋轉(zhuǎn)位置嵌入。

        Llama 4 Behemoth

        最后,他們還透露了超大模型 Llama 4 Behemoth 一些蒸餾和訓(xùn)練細(xì)節(jié)。

        我們開發(fā)了一種新穎的蒸餾損失函數(shù),可通過訓(xùn)練動(dòng)態(tài)加權(quán)軟目標(biāo)和硬目標(biāo)。

        預(yù)訓(xùn)練階段,Llama 4 Behemoth 的代碼蒸餾功能可以攤銷學(xué)生訓(xùn)練中使用的大部分訓(xùn)練數(shù)據(jù)計(jì)算蒸餾目標(biāo)所需的資源密集型前向傳遞的計(jì)算成本。對(duì)于納入學(xué)生訓(xùn)練的其他新數(shù)據(jù),他們?cè)?Behemoth 模型上運(yùn)行前向傳遞,以創(chuàng)建蒸餾目標(biāo)。

        后訓(xùn)練階段,為了最大限度地提高性能,他們刪減了 95% 的 SFT 數(shù)據(jù),而小型模型只需刪減 50% 的數(shù)據(jù),以實(shí)現(xiàn)對(duì)質(zhì)量和效率的必要關(guān)注。

        他們?cè)谶M(jìn)行輕量級(jí) SFT 后,再進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)(RL),模型的推理和編碼能力會(huì)有更顯著的提高。

        強(qiáng)化學(xué)習(xí)方法側(cè)重于通過對(duì)策略模型進(jìn)行 pass@k 分析來抽取高難度提示,并根據(jù)提示難度的增加精心設(shè)計(jì)訓(xùn)練課程。

        此外還發(fā)現(xiàn),在訓(xùn)練過程中動(dòng)態(tài)過濾掉優(yōu)勢(shì)為零的提示語,并構(gòu)建包含多種能力的混合提示語的訓(xùn)練批次,有助于提高數(shù)學(xué)、推理和編碼的性能。最后,從各種系統(tǒng)指令中取樣對(duì)于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務(wù)中表現(xiàn)出色至關(guān)重要。

        由于其規(guī)??涨?,要為兩萬億個(gè)參數(shù)模型擴(kuò)展 RL,還需要改造底層 RL 基礎(chǔ)設(shè)施。

        他們優(yōu)化了 MoE 并行化的設(shè)計(jì),從而加快了迭代速度;并開發(fā)了一個(gè)完全異步的在線 RL 訓(xùn)練框架,提高了靈活性。

        現(xiàn)有的分布式訓(xùn)練框架會(huì)犧牲計(jì)算內(nèi)存以將所有模型堆疊在內(nèi)存中,相比之下,他們新基礎(chǔ)架構(gòu)能夠?qū)⒉煌P挽`活分配到不同 GPU 上,并根據(jù)計(jì)算速度在多個(gè)模型之間平衡資源。

        與前幾代產(chǎn)品相比,這一創(chuàng)新使訓(xùn)練效率提高了約 10 倍。

        One More Thing

        要知道,由于昨天 DeepSeek 發(fā)了新論文,搞得奧爾特曼都坐不住了,趕緊出來發(fā)聲:

        計(jì)劃改變:我們可能在幾周之后先發(fā)布 o3 和 o4-mini。

        GPT-5 就在幾個(gè)月后啊~

        但,誰知道半路又殺出個(gè) Llama 4?!

        前有猛虎,后有豺狼,OpenAI 你真的得加油了……

        網(wǎng)友調(diào)侃道,當(dāng)奧爾特曼一睜眼,看到 Llama 4 來了,而且 Llama 4 的成本比 GPT-4.5 降低了 3 個(gè)數(shù)量級(jí)后 ——

        他的狀態(tài)一定是醬嬸兒的:

        以及相比 Llama,現(xiàn)在可能神秘低調(diào)的 DeepSeek,可能不知道什么時(shí)候突然就會(huì)推出 DeepSeek R2 和 V4… 同在杭州的通義千問也干勁十足,Llama 也好 GPT 也好,基本成為平行參考了。

        太平洋這頭,已經(jīng)開始落地應(yīng)用和智能體了。

        參考鏈接:

        • [1]https://www.llama.com/

        • [2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/

        • [3]https://x.com/AIatMeta/status/1908598456144531660

        • [4]https://x.com/lmarena_ai/status/1908601011989782976

        • [5]https://x.com/IOHK_Charles/status/1908635624036590070

          本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:白交衡宇,原標(biāo)題《LIama 4 發(fā)布重奪開源第一!DeepSeek 同等代碼能力但參數(shù)減一半,一張 H100 就能跑,還有兩萬億參數(shù)超大杯》

  • 相關(guān)手機(jī)游戲
  • 最新手機(jī)精選