導(dǎo)讀:美團 LongCat 團隊正式發(fā)布全新高效推理模型 LongCat-Flash-Thinking。
9 月 22 日消息,美團 LongCat 團隊正式發(fā)布全新高效推理模型 LongCat-Flash-Thinking。
官方介紹稱,在保持了 LongCat-Flash-Chat 極致速度的同時,全新發(fā)布的 LongCat-Flash-Thinking 更強大、更專業(yè)。綜合評估顯示,LongCat-Flash-Thinking 在邏輯、數(shù)學(xué)、代碼、智能體等多個領(lǐng)域的推理任務(wù)中,達到了全球開源模型的最先進水平(SOTA)。
同時,LongCat-Flash-Thinking 不僅增強了智能體自主調(diào)用工具的能力,還擴展了形式化定理證明能力,成為國內(nèi)首個同時具備「深度思考 + 工具調(diào)用」與「非形式化 + 形式化」推理能力相結(jié)合的大語言模型。團隊發(fā)現(xiàn),尤其在超高復(fù)雜度的任務(wù)(如數(shù)學(xué)、代碼、智能體任務(wù))處理上,LongCat-Flash-Thinking 具備更顯著的優(yōu)勢。
創(chuàng)新架構(gòu),實現(xiàn)高效推理與穩(wěn)定訓(xùn)練:
領(lǐng)域并行強化學(xué)習(xí)訓(xùn)練方法:為了解決強化學(xué)習(xí)領(lǐng)域混合訓(xùn)練的穩(wěn)定性問題,團隊設(shè)計了一種領(lǐng)域并行方案,將 STEM、代碼和智能體任務(wù)的優(yōu)化過程解耦。這一方法采用了多領(lǐng)域并行訓(xùn)練再融合的先進策略,實現(xiàn)模型能力的均衡提升,綜合性能達到帕累托最優(yōu)(Pareto-Optimal)。
異步彈性共卡系統(tǒng):異步彈性共卡系統(tǒng)(DORA)是整個訓(xùn)練的基石。該系統(tǒng)通過彈性共卡調(diào)度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設(shè)計,在實現(xiàn)相較于同步 RL 訓(xùn)練框架三倍提速的同時,確保了每條樣本的策略一致性。同時,系統(tǒng)進一步實現(xiàn)了高效的 KV 緩存復(fù)用,能夠支撐萬卡規(guī)模集群的穩(wěn)定運行。值得一提的是,在大規(guī)模異步強化學(xué)習(xí)(RL)訓(xùn)練階段,F(xiàn)LOPs(Floating Point Operations)的投入約為預(yù)訓(xùn)練階段的 20%,為模型性能提升提供了堅實的算力保障。
智能體推理框架:為進一步提升模型的智能體推理能力,團隊提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠自主篩選最優(yōu)查詢樣本,并通過自動化流程將智能體推理與工具使用相結(jié)合,使模型能夠智能識別并調(diào)用外部工具(如代碼執(zhí)行器、API 等),從而高效解決復(fù)雜任務(wù)?;?AIME25 實測數(shù)據(jù),LongCat-Flash-Thinking 在該框架下展現(xiàn)出更高效的智能體工具調(diào)用(Agentic Tool Use)能力,在確保 90% 準(zhǔn)確率的前提下,相較于不使用工具調(diào)用節(jié)省了 64.5% 的 Tokens(從 19653 到 6965),顯著優(yōu)化了推理過程的資源利用率。
形式化推理框架:為了克服當(dāng)前開源通用大型語言模型在形式化證明任務(wù)中的不足,團隊針對形式化推理設(shè)計了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法,該流程利用集成了 Lean4 服務(wù)器的專家迭代框架,生成經(jīng)過嚴格驗證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強了模型的形式化推理能力,提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。
LongCat-Flash-Thinking 在多項權(quán)威評測中刷新紀(jì)錄,在各類推理任務(wù)中均展現(xiàn)出持續(xù)領(lǐng)先的性能:
通用推理能力:LongCat-Flash-Thinking 具備卓越的通用推理能力,尤其在需要結(jié)構(gòu)化邏輯的任務(wù)中表現(xiàn)突出。其在 ARC-AGI 基準(zhǔn)測試中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等頂尖閉源模型。
數(shù)學(xué)能力:LongCat-Flash-Thinking 在數(shù)學(xué)推理方面展現(xiàn)出強大實力,躋身當(dāng)前頂尖模型行列。在更具挑戰(zhàn)性的基準(zhǔn)測試中優(yōu)勢更加明顯 —— 在 HMMT 和 AIME 相關(guān)基準(zhǔn)上取得突破性成績,超越 OpenAI o3,和 Qwen3-235B-A22B-Thinking 等領(lǐng)先模型水平相當(dāng)。這些結(jié)果印證了其解決復(fù)雜、多步驟問題的領(lǐng)先能力。
代碼能力:在編程領(lǐng)域,LongCat-Flash-Thinking 展現(xiàn)出開源模型最先進的性能(SOTA)與綜合實力。在 LiveCodeBench 上以 79.4 分顯著超越參與評估的開源模型,并與頂級閉源模型 GPT-5 表現(xiàn)相當(dāng),證明其解決高難度編程競賽問題的卓越能力。在 OJBench 基準(zhǔn)測試中也以 40.7 的得分保持極強競爭力,并接近領(lǐng)先模型 Gemini2.5-Pro 的水平。
智能體能力:LongCat-Flash-Thinking 在復(fù)雜的、工具增強型推理(Tool-augmented Reasoning)方面表現(xiàn)突出,在智能體工具調(diào)用(Agentic Tool Use)上展現(xiàn)出強勁能力。其在 τ2-Bench-Airline 上以 67.5 分刷新開源 SOTA 成績,并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基準(zhǔn)測試中展現(xiàn)出超強競爭力。
ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基準(zhǔn)中的 pass@1 獲得 67.6 的超高分數(shù),大幅領(lǐng)先所有其他參與評估的模型,在 pass@8 和 pass@32 中同樣保持了領(lǐng)先優(yōu)勢,凸顯其在生成結(jié)構(gòu)化證明和形式化數(shù)學(xué)推理方面的絕對優(yōu)勢。