快手近日正式開源了其最新一代多模態大模型Keye-VL-671B-A37B,這款基于DeepSeek-V3-Terminus架構的模型擁有6710億參數,在視覺感知、跨模態對齊和復雜推理能力上實現了顯著突破。通過系統化的預訓練和后訓練策略,該模型在通用視覺理解和視頻理解領域展現出超越同類產品的性能表現。
在圖像識別測試中,Keye-VL-671B-A37B展現出驚人的細節捕捉能力。當面對三張票據的識別任務時,模型不僅準確識別出文字和版式差異,更通過邏輯推理判斷出其中僅有兩張為電影票,第三張實為食品兌換券。這種超越表面識別的深度理解能力,源于模型對視覺元素與語義信息的精準關聯。在視頻理解測試中,該模型能精準捕捉"藍色雙層電車"等核心元素,并完整復現鏡頭運動軌跡和場景轉換細節。
性能對比數據顯示,在26項主流基準測試中,新模型在18項指標上取得領先成績。特別是在STEM、推理、視頻理解等復雜任務領域,其表現超越字節跳動Seed1.5-VL think和阿里Qwen3-VL 235B-A22B等前沿模型。這種優勢得益于其獨特的三階段預訓練體系:首階段凍結視覺與語言模塊,專注特征對齊;次階段全參數訓練;末階段通過退火訓練強化細粒度感知。整個過程僅使用300B高質量數據,相比其他動輒萬億級的數據規模,展現出更高的訓練效率。
后訓練階段采用創新的混合數據策略,將指令數據與長思維鏈(Long-CoT)數據按特定比例融合。實驗表明,這種組合使模型在保持指令響應能力的同時,顯著提升復雜推理的穩定性。技術團隊開發的嚴格數據篩選流程,有效過濾了冗余反思內容,確保思維鏈數據的精煉性。在強化學習環節,模型采用阿里Qwen3系列同源的GSPO算法,通過序列層建模提升訓練穩定性,并配備專用Verifier模型驗證推理邏輯,使答案準確率提升顯著。
該模型現已在Hugging Face和GitHub平臺開放下載,開發者可訪問指定鏈接獲取完整代碼庫。其視覺編碼器繼承自今年9月開源的Keye-VL-1.5模型,該80億參數版本已支持128k tokens上下文擴展。技術文檔顯示,新模型在多模態數學數據集上的平均準確率提升達1.33%,在開源感知基準測試中提升1.45%,展現出強大的跨領域適應能力。
通過持續優化數據管線,快手構建了覆蓋OCR、圖表、表格等復雜格式的自動化處理流程。這種系統化訓練方法使模型能準確解析視覺信號中的關鍵信息,為后續開發多模態Agent能力奠定基礎。當前版本已具備基礎工具調用能力,未來將強化在真實場景中的自主推理與任務執行能力,推動多模態系統向更實用的方向發展。














