新浪科技訊 12月25日上午消息,日前,計算機國際聲學、語音與信號處理會議ICASSP 2025公佈論文錄用名單,由巨人網絡AI實驗室與浙江大學合作的語音研究成果入選ICASSP 2025。該成果提出了一種精準提升音頻語言模型性能的創新方法,在實驗結果中達到該領域最優效果。
據悉,國際聲學、語音與信號處理會議(International Conference on Acoustics, Speech and Signal Processing,簡稱ICASSP)是全世界最大、最全面的信號處理及其應用方面的頂級會議。作爲國際電子技術與信息科學工程師協會(Institute of Electrical and Electronics Engineers,簡稱IEEE)的重要會議之一,在國際上享有盛譽並具有廣泛的學術影響力。
巨人網絡AI實驗室與浙江大學研究團隊在合作論文《Multiple Consistency-guided Test-Time Adaptation for Contrastive Audio-Language Models with Unlabeled Audio》中,提出了一種無需標註標籤的多重引導提示學習方法,提升了音頻分類零樣本學習上的效果,爲後續在視頻配音(Video-to-Audio,V2A)任務上提供精準支持。
根據實驗結果,與最先進的模型相比,該方法平均準確率相對提升了4.41%,在12個任務的跨領域測試中,平均準確率也相對提升了5.33%,無論是針對域內數據的效果還是跨域的穩定性,都達到了該領域的SOTA(State-of-the-Art,最優的)效果。