NEC將圖像解析技術與生成AI相結合，開發出自動生成工作改善建議的技術。

日本電気 · 01/28 15:00

2025年1月29日
日本電気株式会社

NECは映像解析技術と生成AIを活用して、お手本動作と実際の作業の違いを把握し、改善に向けたアドバイスを生成する技術を開発しました。本技術を活用することで、手指を使う細かな作業から体全体を使う作業まで、改善のための適切なアドバイスを自動で提示できるようになります。これにより、製造や物流、建設など様々な業種の作業現場で、指導者なしでも作業習熟が可能になるセルフ教育を実現します。

自動生成されたアドバイス例

近年、熟練作業者の高齢化に伴う指導者不足により、技術伝承が進まないことが課題となっています。また、多品種少量生産の増加や労働者の多様性と流動性により、指導者による作業教育のコスト増加や作業教育が十分に実施できないことによる作業品質の低下が懸念されています。
本技術は指導者の代わりにAIがアドバイスを行うことで、多種多様な作業に対するセルフ教育を可能にします。これを実現するために、お手本動作との細かな動きの差異が発生している区間を検知する映像解析技術と、差異に基づいて生成AIがお手本動作に近づくための適切なアドバイス文を生成する技術を開発しました。
差異区間を検知する映像解析技術では、お手本動作と実際の作業を比較し、同じ動作が行われている区間の対応付けをします。その際に、人の動きだけでなく作業対象の物体に対する「つかむ」「持つ」といったインタラクションも捉えることで、お手本動作と動作時間が異なっても正確な対応付けが可能になります。これにより、従来は検知できなかった細かな作業動作の差異を検出できます。

物体に対するインタラクションも活用することで対応付けが正確に

アドバイス文を生成する技術では、検出した差異区間映像に加えて、腰や膝の動き、手や指の形状といった骨格情報を大規模視覚言語モデル(Vision and Language Model : VLM 、注)に入力します。映像情報だけでなく骨格情報も入力することで、VLMが改善すべき作業姿勢や動作を正確に特定し、具体的なアドバイス文を生成します。生成されたアドバイス文を該当部分の映像と共に提示することにより、物品の細かな組み立て作業や箱詰め、運搬作業など、様々な業種の現場で指導者を必要としない作業習熟を可能にし、教育コストの大幅な削減にも貢献します。

映像情報と骨格情報の併用により作業姿勢や動作の改善アドバイス文を生成

今後の展開

NECは本技術について、2025年度中に実証と製品開発を進め、2026年度内のサービス提供を目指します。

以上

(注)
大規模視覚言語モデル(Vision and Language Model)は、画像などの視覚情報と自然言語(テキスト情報)を組み合わせて分析するAIモデルの一種です。画像キャプション生成や画像に基づく質問応答、マルチモーダル検索等に利用されています。

モノづくり現場の作業品質を高めるAIによるセルフ教育作業教育を支援する技術について

URL：

本件に関するお客様からのお問い合わせ先

NEC　グローバルイノベーション戦略統括部
E-Mail：

NECは、安全・安心・公平・効率という社会価値を創造し、
誰もが人間性を十分に発揮できる持続可能な社会の実現を目指します。

2025年1月29日
日本電氣株式會社

NEC利用圖像解析技術和生成AI，開發了能夠把握示範動作與實際作業之間差異，並生成改善建議的技術。通過利用該技術，可以自動提供從使用手指的精細作業到全身參與的作業等的適當改善建議。這將實現自我教育，使得在製造、物流、施工等各種行業型的作業現場，即使沒有指導者也能熟練掌握作業。

自動生成的建議示例

近年來，由於熟練操作人員的老齡化導致指導者不足，技術傳承進展緩慢成爲了一大問題。此外，隨着多品種少量生產的增加和勞動者的多樣性及流動性，指導者在進行作業教育時面臨成本增加，以及因作業教育不足導致的作業質量下降的問題令人擔憂。
本技術通過讓AI代替指導者進行建議，能夠實現對多種多樣作業的自我教育。爲此，我們開發了能夠檢測示範動作與細微動作差異的影像分析技術，以及根據差異生成能夠使行動接近示範動作的適當建議文本的生成AI技術。
在檢測差異區間的影像分析技術中，我們將示範動作與實際作業進行比較，完成同一動作區間的對應關係。此時，不僅捕捉人的運動，還要對作業對象的物體的「抓取」、「持有」等交互行爲進行捕捉，這樣即使示範動作與動作時間不同，也能進行準確的對應。通過此方法，可以檢測到以往無法檢測到的細微作業動作的差異。

通過利用對物體的交互，能夠實現準確的對應。

在生成建議文的技術中，除了檢測到的差異區域影像外，還將腰部和膝部的動作、手指及其形狀等骨架信息輸入到大型視覺語言模型（Vision and Language Model : VLM，注）。通過輸入影像信息和骨架信息，VLM能夠準確識別需要改進的工作姿勢和動作，生成具體的建議文。通過將生成的建議文與相關部分的影像一同呈現，可以在各種行業的現場實現無需教練的作業熟練度，提高物品的細緻組裝作業、箱裝和交通作業等，極大地降低教育成本。