share_log

作業効率化や安心・安全な現場づくりに向けた改善を自律的に支援する映像解析型AIエージェントを開発

開發出一種自律支持作業效率提升和安心、安全現場建設的影像解析型AI智能助手

富士通 ·  12/11 23:00

通過與業務相關的圖像和文檔強化空間感知能力和時間序列理解能力


我們最近開發了AI服務「富士通Kozuchi」的核心技術,能夠分析安裝在製造、物流等現場攝像機的圖像,參考作業指示和規章等文檔信息,自動提出現場改善建議並生成作業報告,從而支持人的作業。這款圖像分析型AI代理將在2025年1月開始進行內部實踐,並將在2024財政年度內啓動圖像分析型AI代理的試用環境。此外,我們還將向店鋪、交通、公共安全等各個領域推進技術應用。

開發的AI代理基於多模態(注1)大規模語言模型(以下簡稱多模態LLM),通過基於安全規章等文檔信息,獲取現場三維空間的圖像識別能力,具備自我學習技術,同時通過選擇和記憶文檔上下文所指示的目標部分,能夠以世界最高精度(注2)分析長時間的圖像,搭載了上下文記憶技術。

爲了評估AI代理的性能,我們開發了包括工廠和倉庫現場圖像的AI代理評估環境「FieldWorkArena(現場工作競技場)」,並在美國卡內基梅隆大學(注3)的指導下進行開發。預計從2024年12月開始在GitHub(注4)和富士通研究門戶網站發佈「FieldWorkArena」。

背景

在製造和物流等現場,人才短缺和熟練工高齡化日益嚴重,確保生產力和質量的同時,實現一個更加便捷、安全的工作環境已經成爲一個挑戰。與人協調的AI代理在辦公室工作和對話支持方面顯示出巨大潛力,但在現場作業支持方面仍需進一步發展。

開發技術

開發的圖像分析型AI代理具備以下特徵。

大圖1:視頻解析型AI代理

基於文檔信息進行現場理解能力擴展的自我學習技術

人類雖然第一次見到某物或某地,但能夠根據指示書等語言信息理解視覺信息並進行操作。本技術利用多模態LLM對視頻中無法識別的事件,通過文檔的語言信息進行關聯學習,擴展AI代理的視頻理解能力。圖2是擴展人與物之間空間關係理解能力的例子。首先,選擇文檔中包含的目標物體,通過機械學習估計與目標物體的距離,並在虛擬空間中生成三維數據。接下來,從文檔中生成問題,並依據三維數據生成能夠回答的問題,將這些作爲學習數據對多模態LLM進行微調。通過使用此技術以三維方式估計人與物體之間的距離,可實現運輸和施工現場的安全管理,以及製造現場工作狀態的生產管理系統的自動輸入等。此外,除了空間理解能力外,還可以向AI代理增加現場特有的物體識別、人類個別工作的識別等現場作業支持所需的各種能力。

大圖2:現場理解能力的追加學習的例子

有效解析視頻的上下文記憶技術

在多模態LLM中,輸入大尺寸長時間視頻時需要間隔掉一些幀,這導致在分析時序變化的視頻時,回答的準確性下降。爲了解決這個問題,我們關注了通過集中注意重要信息而有效處理視覺信息的人類「選擇性注意」機制。本技術中,給定AI代理任務中希望檢測的「人類安全行爲」等主題作爲提示,通過「選擇性注意」,僅選擇符合主題的幀內特徵量並進行壓縮,存儲爲視頻上下文記憶。在使用視頻上下文記憶的情況下,多模態LLM能夠處理長時間視頻而不間隔幀。對包含兩小時以上視頻的長時間視頻進行問答的商品測試結果表明,該開發方式在最小存儲容量下,實現了世界最高的回答精度,相較於傳統的多模態LLM視頻壓縮技術。

大圖3:使用選擇性注意機制的影像上下文記憶

AI代理評估環境「FieldWorkArena」

我們開發了用於影像解析型AI代理的評估環境「FieldWorkArena」,在卡內基梅隆高校的格拉姆·紐比格副教授和約納坦·比斯克助教授團隊的指導下。「FieldWorkArena」包含實際工廠和倉庫的圖像和視頻、規章制度和程序文件等文檔、模擬的業務系統以及AI代理需要解決的任務群(圖4),可以評估AI代理在實際業務中的性能。

大圖4:「FieldWorkArena」的數據,任務示例

關於商標

文中提到的產品名稱等專有名詞均爲各公司的商標或註冊商標。

註釋

  • 注1
    多模態:
    結合多種形式和手段。
  • 注2
    實現世界最高的回答精度:
    在長時間視頻理解商品InfiniBench中,僅使用視頻信息即可回答的599個子集(平均49分鐘,最長151分鐘的視頻)的回答精度達到了世界最高記錄(截至2024年12月12日)
  • 注3
    卡內基梅隆大學:
    所在地 美國賓夕法尼亞州,校長 Farnam Jahanian
  • 注4
    GitHub:
    全球範圍內用於發佈開源軟件的平台。

相關鏈接

  • GitHub FieldWorkArena頁面
  • 富士通研究門戶
  • 富士通小土
  • 富士通技術博客

關於我們對SDGs的貢獻

大

2015年在聯合國通過的可持續發展目標(Sustainable Development Goals:SDGs)是全球在2030年前必須實現的共同目標。我們存在的意義是通過創新給社會帶來信賴,讓世界變得更加可持續,這承諾了我們對SDGs的貢獻。

本項目的主要目標是推動SDGs的貢獻
大

有關本件的諮詢

  • 富士通聯繫方式(綜合窗口)

    0120-933-200
    (電話免費)

    接待時間: 9時~12時以及13時~17時30分(週六、週日、節假日及富士通指定的休業日除外)

  • 網上諮詢

    前往輸入表單

    公司從安防-半導體技術方面出發考慮,採用SSL技術進行保護。


在新聞稿中列出的產品價格、規格、服務內容等爲發佈日現有的信息,之後可能會在不通知的情況下進行變更,敬請諒解。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論