【TechWeb】3月27日消息,阿里雲宣佈通義千問Qwen2.5-Omni-7B正式開源。
Qwen2.5-Omni支持文本、圖像、音頻和視頻等多種輸入形式,並實時生成文本與自然語音合成輸出。
阿里雲介紹,在權威的多模態融合任務OmniBench等測評中,Qwen2.5-Omni全維度遠超Google的Gemini-1.5-Pro等同類模型。在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先於專門的Audio或VL模型,且語音生成測評分數(4.51)達到了與人類持平的能力。
目前,Qwen2.5-Omni已在魔搭社區和Hugging Face 同步開源,開發者和企業可免費下載商用Qwen2.5-Omni,手機等終端智能硬件也可輕鬆部署運行。另外,用戶也可在Qwen Chat上直接體驗。
評論(0)
請選擇舉報原因