業務に関わる映像とドキュメントから空間把握能力と時系列理解能力を強化
当社は、このほど、AIサービス「Fujitsu Kozuchi」のコア技術として、製造、物流などの現場に設置されたカメラ映像を空間認識し解析するとともに作業指示や規則などのドキュメント情報を参照することで、自律的に現場改善の提案や作業レポートの作成を行い、人の作業を支援する映像解析型AIエージェントを開発しました。当社は、開発したAIエージェントを用いて2025年1月より社内実践を行うとともに、2024年度中に映像解析型AIエージェントのトライアル環境の提供を開始します。また今後、店舗、交通、公共安全などの様々な分野への技術展開も進めていきます。
開発したAIエージェントでは、マルチモーダル(注1)大規模言語モデル(以下、マルチモーダルLLM)をベースとし、安全規則などのドキュメント情報をもとに現場の3次元空間を映像認識する能力を獲得する自己学習技術と、ドキュメントのコンテキストが示す対象部分を映像から選択し記憶することにより、長時間の映像を世界最高精度(注2)で解析することを可能にしたコンテキスト記憶技術を搭載しています。
さらに、AIエージェントの性能評価を目的に、工場や倉庫の現場映像を含むAIエージェントの評価環境「FieldWorkArena(フィールドワークアリーナ)」を、米国のCarnegie Mellon University(注3)(以下、カーネギーメロン大学)の監修のもと開発しました。2024年12月より、「FieldWorkArena」の公開をGitHub(注4)およびFujitsu Research Portalにおいて開始する予定です。
背景
製造や物流をはじめとする現場において人材不足や熟練者の高齢化が進む中、生産性や品質を確保しながら、働きやすく安心・安全な現場づくりを実現していくことが課題となっています。人と協調するAIエージェントは、デスクワークや会話支援において大きな広がりを見せていますが、現場作業の支援に向けてはさらなる進化が求められています。
開発技術
開発した映像解析型AIエージェントは、以下の特長を備えています。
図1:映像解析型AIエージェント ドキュメント情報をもとに現場理解能力の拡張を行う自己学習技術
人間は初めて見る物や場所でも、指示書などの言語情報をもとに視覚情報を理解し、作業を行うことができます。本技術では、マルチモーダルLLMが映像から認識できない事象について、ドキュメントの言語情報を対応付けて学習し、AIエージェントの映像理解能力を拡張することができます。図2は、人と物との空間的関係性の理解能力を拡張する例です。まず、ドキュメントに含まれる対象物を選択し、機械学習により対象物との距離を推定して3次元データを仮想空間上に作成します。次に、ドキュメントから作成した質問と、3次元データからわかる回答を作成し、それらを学習データとしてマルチモーダルLLMをファインチューニングします。この技術を用いて人と物体の距離を3次元で推定することで、物流や建設の現場における安全管理や、製造現場における作業状況の生産管理システムへの自動入力などを実現します。また、空間理解能力に加え、現場固有の物体認識、人の個別作業の認識など、現場作業支援に必要な様々な能力をAIエージェントに追加できるようになります。
図2:現場理解能力の追加学習の例 映像を効率的に解析するコンテキスト記憶技術
マルチモーダルLLMでは、サイズの大きい長時間の映像を入力する際にフレームを間引くため、時系列で変化のある映像を分析する際に回答の精度が落ちるという問題がありました。この問題を解決するために着目したのが、重要な情報に注意を集中することで効率的に視覚情報を処理する、人間の「選択的注意」というメカニズムです。本技術では、対象映像の中でAIエージェントのタスクで検知したい「人の安全行動」などの主題をプロンプトとして与えると、「選択的注意」により、主題に適合するフレーム内の特徴量のみを選択し、圧縮して映像コンテキストメモリとしてビデオメモリに格納します。映像コンテキストメモリを用いることで、フレームを間引くことなく長時間映像をマルチモーダルLLMが扱えるようになります。2時間以上の映像を含む長時間映像に対する質問回答のベンチマークを行った結果、開発方式は従来のマルチモーダルLLM向けの映像圧縮技術と比較して最小の記憶容量で世界最高の回答精度を達成しました。
図3:選択的注意機構を用いた映像のコンテキスト記憶 AIエージェント評価環境「FieldWorkArena」
当社は、映像解析型AIエージェントのための評価環境「FieldWorkArena」を、カーネギーメロン大学のグラム・ニュービッグ准教授、ヨナタン・ビスク助教授のチームの監修のもと開発しました。「FieldWorkArena」には、実際の工場や倉庫の画像や映像、規則や手順書などのドキュメント、模擬の業務システム、AIエージェントが解決すべきタスク群が含まれ(図4)、AIエージェントの実業務での性能を評価することができます。
図4:「FieldWorkArena」のデータ、タスク例 商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
注釈
注1
マルチモーダル:
複数の形式や手段を組み合わせること。
注2
世界最高の回答精度を実現:
長時間映像理解ベンチマークInfiniBenchのうち、映像情報のみで回答可能な599のサブセット(平均49分・最大151分の映像)に対しての回答精度で世界最高記録を達成(2024年12月12日現在)
注3
Carnegie Mellon University:
所在地 米国ペンシルベニア州、学長 Farnam Jahanian
注4
GitHub:
世界中でオープンソースソフトウェアの公開に使われているプラットフォーム。
関連リンク
- GitHub FieldWorkArenaページ
- Fujitsu Research Portal
- Fujitsu Kozuchi
- Fujitsu TECH BLOG
当社のSDGsへの貢献について
2015年に国連で採択された持続可能な開発目標(Sustainable Development Goals:SDGs)は、世界全体が2030年までに達成すべき共通の目標です。当社のパーパス(存在意義)である「イノベーションによって社会に信頼をもたらし、世界をより持続可能にしていくこと」は、SDGsへの貢献を約束するものです。
本件が貢献を目指す主なSDGs 本件に関するお問い合わせ
プレスリリースに記載された製品の価格、仕様、サービス内容などは発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。
从与工作相关的图像和文档中增强空间理解能力和时间序列理解能力
最近,作为人工智能服务 “Fujitsu Kozuchi” 的核心技术,我们开发了一种图像分析型人工智能代理,该代理通过空间识别和分析安装在制造、物流等领域的摄像机图像,参考工作说明和规则等文档信息,自主提出现场改进建议和准备工作报告来支持人类工作。我们将从2025年1月起使用我们开发的人工智能代理进行内部实践,并将在2024财年开始为视频分析类型的人工智能代理提供试用环境。未来,我们还将推进商店、交通和公共安全等各个领域的技术开发。
开发的人工智能代理基于多模态(注释1)大规模语言模型(以下简称多模态LLM),配备了自学习技术,该技术能够根据安全规则等文档信息识别站点的三维空间中的图像,以及上下文存储技术,通过选择和存储所示的目标部件,可以长时间分析图像,以世界上最高的精度(注2)进行图像分析图片中的文档上下文我来做。
此外,为了评估人工智能代理的性能,在美国卡内基梅隆大学(注释3)(以下简称卡内基梅隆大学)的监督下,开发了包括工厂和仓库现场图像的人工智能代理评估环境 “FieldworkArena(Fieldwork Arena)”。“FieldwarkaRena” 计划于2024/12年度开始在GitHub(注释4)和富士通研究门户网站上发布。
背景
由于人力资源短缺以及制造和物流等领域熟练工人的老龄化,在确保生产力和质量的同时,创造易于工作的安全可靠的工作场所是一个问题。与人合作的人工智能代理在办公桌工作和对话支持方面表现出巨大的分布,但要支持现场工作,还需要进一步的发展。
开发技术
我们开发的视频分析型AI代理具有以下功能。
图 1:视频分析类型 AI 代理
基于文档信息扩展现场理解能力的自学习技术
人类可以理解视觉信息并根据指令等语言信息执行任务,即使他们是第一次看到事物或地点也是如此。通过这项技术,可以通过关联文档中的语言信息,了解多模态LLM无法从图像中识别的事件,并扩展AI代理理解图像的能力。图 2 是扩展理解人与物之间空间关系的能力的示例。首先,选择文档中包含的对象,使用机器学习估算与物体的距离,并在虚拟空间中创建三维数据。接下来,创建根据文档创建的问题和从三维数据中理解的答案,并使用这些作为学习数据对多模态LLM进行微调。通过使用这种技术估算人与物之间的三维距离,可以实现物流和施工现场的安全管理,并将生产现场的工作条件自动输入到生产管理系统中。此外,除了空间理解能力外,还可以在人工智能代理中添加现场工作支持所需的各种能力,例如特定于现场的物体识别和对个人人类工作的识别。
图 2:实地理解技能的额外学习示例
用于高效分析图像的上下文存储技术
在多模态LLM中,输入较大的长时间图像时帧会变薄,因此在分析随时间推移而变化的图像时,存在响应精度下降的问题。为了解决这个问题,我们重点研究了一种名为 “选择性注意力” 的人为机制,该机制通过将注意力集中在重要信息上来有效地处理视觉信息。在这项技术中,当目标图像中给出诸如 AI 代理任务检测的 “人类安全行为” 之类的主体作为提示时,只通过 “选择性注意” 选择帧内与拍摄对象相匹配的特征,进行压缩,并作为图像上下文存储器存储在视频存储器中。通过使用视频上下文存储器,多模态LLM可以在不延迟帧的情况下长时间处理图像。通过对长时间图像(包括2小时或更长时间的图像)进行基准测试的问题和答案,与用于多模态LLM的传统视频压缩技术相比,该开发方法以最小的存储容量实现了世界上最高的响应精度。
图 3:使用选择性注意机制的视频环境记忆
AI 代理评估环境 “FieldworkArena”
我们在卡内基梅隆大学格拉姆·纽比格副教授和乔纳森·比斯克助理教授团队的监督下,为图像分析类型的人工智能代理开发了评估环境 “FieldworkArena”。“FieldworkArena” 包括实际工厂和仓库的图像和图像、规则和程序、模拟业务系统等文档,以及有待人工智能代理解决的任务组(图 4),并且可以评估人工智能代理在实际工作中的性能。
图 4:FieldworkArena 数据和任务示例
关于商标
专有名称(例如所提及的产品名称)是其各自公司的商标或注册商标。
笔记
相关链接
- GitHub 现场工作竞技场页面
- 富士通研究门户
- 富士通小冢
- 富士通科技博客
关于我们对可持续发展目标的贡献
联合国在2015年通过的可持续发展目标(SDG)是整个世界应在2030年之前实现的共同目标。我们的宗旨(存在的意义),“通过创新为社会带来信任,让世界更具可持续性”,承诺为可持续发展目标做出贡献。
该项目旨在促进的主要可持续发展目标
有关此事的查询
通过网络联系我们
转到输入表单
我们从安全保护的角度使用 SSL 技术。
新闻稿中描述的产品价格、规格、服务详情等均为截至发布之日的最新信息。此后可能会进行更改,恕不另行通知。请提前注意。