3月18日,昆侖萬維正式開源首款工業界多模態思維鏈推理模型Skywork R1V,即日起開源模型權重和技術報告。
繼OpenAI o1和DeepSeek-R1在全球掀起長思考模型熱潮後,大模型進入新技術範式。昆侖萬維積極貢獻開源社區,正式開源Skywork R1V多模態視覺推理模型,成爲中國第一個開源「多模態推理模型」的企業。
據介紹,視覺推理模型是一類能夠解決需要思維鏈(Chain-of-Thought)的視覺任務的模型,通過對視覺信息進行多步邏輯推理與分析,逐步推導出最終結果。這種模型不僅關注圖像內容的識別與理解,更強調通過層層遞進的推理路徑,實現複雜視覺問題的精準求解,例如視覺邏輯推理、視覺數學問題、圖像中的科學現象分析、醫學影像的診斷推理等,從而有效拓展了視覺大模型的應用邊界。
無論是日常繁瑣的工作任務、複雜的數據分析、難以解答的學術問題,還是前所未見的陌生場景,都可以交給Skywork R1V進行高效處理。
在Reasoning推理能力方面,Skywork R1V實現了模型的頂尖邏輯推理與數學分析能力。在權威的MATH500和AIME基準測試中,Skywork R1V分別取得了94.0和72.0的高分,在純文本複雜推理任務中展現出卓越性能,使其在邏輯推理和數學問題求解領域展現出人類專家級別的水準。
在Vision視覺理解能力方面,Skywork R1V成功地將其強大的文本推理與思維鏈推導能力高效遷移到視覺任務中。憑藉創新的跨模態遷移技術與推理優化框架,Skywork R1V能夠高效解決需要多步視覺推理的問題,在MMMU與MathVista等視覺推理基準中分別取得了69和67.5的優異成績。
基於R1V模型,Skywork團隊設計了一種靈活在R1V中擴展語音理解模態的方式,從而實現一個全模態思考大模型,該在單個模型中同時實現圖像、視頻、語音的全模態理解能力,並在語音和視覺理解評測中斬獲多項SOTA成績。未來公司將陸續公佈測評成績、開源全模態思考大模型。
2023年10月以來,昆侖萬維陸續開源了百億級大語言模型「天工」Skywork-13B系列、數字智能體全流程研發工具包AgentStudio、4000億參數MoE超級模型、2千億稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆侖萬維同時將SOTA級別的SkyReels-V1和SkyReels-A1進行開源。
在語言生成模型、AI Agent、推理模型、視頻生成模型等相繼開源、多點開花之後,公司正式開源Skywork R1V多模態推理模型,在文本-視覺多模態推理方向再下一城,成爲中國第一家開源多模態思考模型的企業。昆侖萬維表示,未來將持續開源優秀的模型、數據集等,共建開發者生態、加速技術創新、降低應用門檻、推動技術平權和AI行業發展。
評論(0)
請選擇舉報原因