share_log

作業効率化や安心・安全な現場づくりに向けた改善を自律的に支援する映像解析型AIエージェントを開発

开发一种自律性支持作业效率化和安全可靠的现场建设的图像解析型AI助手

富士通 ·  12/11 23:00

从与工作相关的图像和文档中增强空间理解能力和时间序列理解能力


最近,作为人工智能服务 “Fujitsu Kozuchi” 的核心技术,我们开发了一种图像分析型人工智能代理,该代理通过空间识别和分析安装在制造、物流等领域的摄像机图像,参考工作说明和规则等文档信息,自主提出现场改进建议和准备工作报告来支持人类工作。我们将从2025年1月起使用我们开发的人工智能代理进行内部实践,并将在2024财年开始为视频分析类型的人工智能代理提供试用环境。未来,我们还将推进商店、交通和公共安全等各个领域的技术开发。

开发的人工智能代理基于多模态(注释1)大规模语言模型(以下简称多模态LLM),配备了自学习技术,该技术能够根据安全规则等文档信息识别站点的三维空间中的图像,以及上下文存储技术,通过选择和存储所示的目标部件,可以长时间分析图像,以世界上最高的精度(注2)进行图像分析图片中的文档上下文我来做。

此外,为了评估人工智能代理的性能,在美国卡内基梅隆大学(注释3)(以下简称卡内基梅隆大学)的监督下,开发了包括工厂和仓库现场图像的人工智能代理评估环境 “FieldworkArena(Fieldwork Arena)”。“FieldwarkaRena” 计划于2024/12年度开始在GitHub(注释4)和富士通研究门户网站上发布。

背景

由于人力资源短缺以及制造和物流等领域熟练工人的老龄化,在确保生产力和质量的同时,创造易于工作的安全可靠的工作场所是一个问题。与人合作的人工智能代理在办公桌工作和对话支持方面表现出巨大的分布,但要支持现场工作,还需要进一步的发展。

开发技术

我们开发的视频分析型AI代理具有以下功能。

大图 1:视频分析类型 AI 代理

基于文档信息扩展现场理解能力的自学习技术

人类可以理解视觉信息并根据指令等语言信息执行任务,即使他们是第一次看到事物或地点也是如此。通过这项技术,可以通过关联文档中的语言信息,了解多模态LLM无法从图像中识别的事件,并扩展AI代理理解图像的能力。图 2 是扩展理解人与物之间空间关系的能力的示例。首先,选择文档中包含的对象,使用机器学习估算与物体的距离,并在虚拟空间中创建三维数据。接下来,创建根据文档创建的问题和从三维数据中理解的答案,并使用这些作为学习数据对多模态LLM进行微调。通过使用这种技术估算人与物之间的三维距离,可以实现物流和施工现场的安全管理,并将生产现场的工作条件自动输入到生产管理系统中。此外,除了空间理解能力外,还可以在人工智能代理中添加现场工作支持所需的各种能力,例如特定于现场的物体识别和对个人人类工作的识别。

大图 2:实地理解技能的额外学习示例

用于高效分析图像的上下文存储技术

在多模态LLM中,输入较大的长时间图像时帧会变薄,因此在分析随时间推移而变化的图像时,存在响应精度下降的问题。为了解决这个问题,我们重点研究了一种名为 “选择性注意力” 的人为机制,该机制通过将注意力集中在重要信息上来有效地处理视觉信息。在这项技术中,当目标图像中给出诸如 AI 代理任务检测的 “人类安全行为” 之类的主体作为提示时,只通过 “选择性注意” 选择帧内与拍摄对象相匹配的特征,进行压缩,并作为图像上下文存储器存储在视频存储器中。通过使用视频上下文存储器,多模态LLM可以在不延迟帧的情况下长时间处理图像。通过对长时间图像(包括2小时或更长时间的图像)进行基准测试的问题和答案,与用于多模态LLM的传统视频压缩技术相比,该开发方法以最小的存储容量实现了世界上最高的响应精度。

大图 3:使用选择性注意机制的视频环境记忆

AI 代理评估环境 “FieldworkArena”

我们在卡内基梅隆大学格拉姆·纽比格副教授和乔纳森·比斯克助理教授团队的监督下,为图像分析类型的人工智能代理开发了评估环境 “FieldworkArena”。“FieldworkArena” 包括实际工厂和仓库的图像和图像、规则和程序、模拟业务系统等文档,以及有待人工智能代理解决的任务组(图 4),并且可以评估人工智能代理在实际工作中的性能。

大图 4:FieldworkArena 数据和任务示例

关于商标

专有名称(例如所提及的产品名称)是其各自公司的商标或注册商标。

笔记

  • 备注 1
    多式联运:
    结合多种形式和手段。
  • 备注 2
    实现世界上最高的响应精度:
    仅使用长期视频理解基准测试InfiniBench的视频信息(截至2024/12/12)(截至2024/12/12)的599个子集(平均49分钟,最长151分钟的视频),创下了全球最高的响应精度记录(截至2024/12/12)
  • 注意事项 3
    卡内基梅隆大学:
    地点:美国宾夕法尼亚州,总统法尔南·贾哈尼安
  • 备注 4
    GitHub
    用于在全球发布开源软件的平台。

相关链接

  • GitHub 现场工作竞技场页面
  • 富士通研究门户
  • 富士通小冢
  • 富士通科技博客

关于我们对可持续发展目标的贡献

大

联合国在2015年通过的可持续发展目标(SDG)是整个世界应在2030年之前实现的共同目标。我们的宗旨(存在的意义),“通过创新为社会带来信任,让世界更具可持续性”,承诺为可持续发展目标做出贡献。

该项目旨在促进的主要可持续发展目标
大

有关此事的查询

  • 富士通联络热线(总办公室)

    0120-933-200
    (免费通话)

    接待时间:9:00 至 12:00 和 13:00 至 17:30(不包括周六、周日、公众假期和富士通指定的节假日)

  • 通过网络联系我们

    转到输入表单

    我们从安全保护的角度使用 SSL 技术。


新闻稿中描述的产品价格、规格、服务详情等均为截至发布之日的最新信息。此后可能会进行更改,恕不另行通知。请提前注意。

译文内容由第三方软件翻译。


以上内容仅用作资讯或教育之目的,不构成与富途相关的任何投资建议。富途竭力但不能保证上述全部内容的真实性、准确性和原创性。
    抢沙发