生成AI×物流ロボット:VLM/LLM活用によるピッキングロボットの進化

著者:代表社員CEO 守谷祥史

生成AI×物流ロボット:VLM/LLM活用によるピッキングロボットの進化

🎧 この記事のAI音声ガイドを聴く

はじめに

皆さま、こんにちは。前回のインサイトでは、ピースピッキングロボットがどのような部品から成り立ち、どんな流れで作業を行うのか、そして従来の技術がどんな課題を抱えていたのかについて、一緒に見てきましたね。センサーやロボットアーム、エンドエフェクタといったハードウェアと、それらを賢く制御するソフトウェア。これらが組み合わさったピースピッキングロボットは、倉庫でのピッキング作業を自動化する上で、なくてはならない存在となりつつあります。

関連インサイト



しかし、従来のピースピッキングロボットには、ちょっぴり苦手なことがありました。それは、あらかじめ教えられたもの、例えば形や素材が決まっている商品しか上手に扱えなかった点です。たくさんの種類の商品を扱う今のEC市場のような場所では、その能力だけでは十分とは言えませんでした。初めて見る商品や、いつもと違う荷姿の商品、あるいは作業する場所のちょっとした変化に対応するのは、まだ難しい課題として残っていたのです。

そんな中、最近「すごいAIが出てきたぞ!」と話題になっているのをご存知でしょうか。それが、今回注目する『VLM』(Vision-Language Model:視覚言語モデル)と『LLM』(Large Language Model:大規模言語モデル)と呼ばれるAI技術です。なんだか難しそうな名前ですが、これらのAIが、ピッキングロボットの世界に大きな変化をもたらそうとしています。

VLMやLLMは、まるでロボットがインターネット上にたくさんある人間の知識を使えるようになるようなものです。これにより、ピッキングロボットがぐんと賢くなる可能性を秘めているのです。例えば、初めて見る商品でも「これはこういうものだな」と理解したり、どうやって持つのが一番良いかを自分で考えたり、周りの状況が変わっても柔軟に対応したりする、そんな能力をロボットに与えることができるようになるかもしれません。

この記事では、VLMやLLMという新しいAI技術によって、ピッキングロボットがこれからどのように進化していくのか、そして、人とロボットが一緒に働く未来の物流倉庫はどんな姿になるのか、具体的な例を交えながらお話ししていきます。前回の記事でピースピッキングロボットの基本をご理解いただけたかと思いますので、今回はさらに一歩進んで、VLMやLLMがもたらすわくわくするような未来を一緒に探っていきましょう。

ピッキングロボットへの生成AIの活用事例

VLMやLLMといった生成AIの技術は、ピッキングロボットの能力を大きく引き上げ、これまで「これは自動化が難しいよね」と思われていた作業にも対応できるようになるのではないかと期待されています。多くの企業がその可能性に気づき、研究開発や実際の現場で使えるようにするための取り組みを進めています。ここでは、具体的な活用の事例をご紹介しながら、VLMやLLMが物流倉庫にどんな変化をもたらすのか、具体的に見ていきましょう。

RFM-1:言葉とモノの動きを理解するマルチモーダルAIロボット

アメリカで生まれたスタートアップ企業、Covariant.aiは、『RFM-1』と呼ばれる、とても賢いAIを開発しました。これは、生成AIを中心にして作られた、いろいろなピッキングロボットに使える共通の頭脳のようなものです。

Covariantの公式Webサイト external-link

RFM-1は、深層学習というAIの学習方法を使って、インターネット上にあるたくさんの一般的なデータはもちろん、文字、画像、動画、ロボットが実際に動いた記録、センサーが集めた情報など、さまざまな種類のデータをまとめて学習します。これによって、RFM-1は『言葉と物理法則を理解する能力』を手に入れた、マルチモーダルなロボット基盤モデルとなりました。「マルチモーダル」というのは、複数の異なる種類の情報を扱える、という意味です。

この言葉を理解する能力と、物がどう動くかという物理法則への理解があるおかげで、RFM-1は人が話す言葉の指示を理解したり、人とコミュニケーションを取ったり、さらにはとても正確な物理シミュレーションも行うことができます。

今までのロボットのように、「この商品しか扱えません」とか「動きを変えるにはプログラムの変更が必要です」といった制限が少なく、見たことのない商品や初めての状況にも柔軟に対応できる『汎用性』を持っているのが、RFM-1の大きな特長です。なんだか頼もしいですね。

Covariant.aiは、このRFM-1を、さまざまな業界のパートナー企業と一緒に開発したり、実際に試したりしており、これからいろいろな分野で活躍することが期待されています。

RFM-1の紹介記事(英語) external-link
RFM-1の紹介記事(日本語で読む) external-link

PickGPT:話しかけるように指示できるピッキングロボット

ドイツにも、注目のスタートアップ企業があります。Sereact社は、『PickGPT』という、LLM(大規模言語モデル)の力を借りたピッキングロボットシステムを開発しました。このPickGPTは、なんと、作業する人が『普段話す言葉で指示した内容を理解』して、その指示通りにピッキング作業を行うことができるのです。

Sereactの公式Webサイト external-link

LogiMAT2024視察でのSereact社の展示の様子はこちら LogiMAT2024でのSereact社の展示

例えば、「棚から赤い箱を取って、その青い箱の上に置いてくれる?」といった、私たち人間同士なら当たり前の指示を、PickGPTはちゃんと理解して実行できます。従来のロボットにとっては、こういった複雑な指示を理解するのはとても難しかったのですが、LLMを活用することで、人とロボットのコミュニケーションがずっとスムーズになり、作業指示の効率もぐっと上がりそうですね。

PickGPTは、まだ開発の途中ではありますが、将来的には、声で指示を理解する音声認識技術と組み合わせることで、『声で話しかけるだけで指示』できるようになるかもしれないと期待されています。

これまでのピッキングロボットは、事前に一つひとつ動きを教え込んだり、プログラムで細かく制御したりする必要があったことを考えると、導入にかかる時間が短くなったり、いろいろな作業にもっと柔軟に対応できるようになったりする可能性が広がりますね。

PickGPTのページ(英語) external-link
PickGPTのページ(日本語で読む) external-link

AutoRT:ロボットが自分で学んで賢くなる、自律的なデータ収集システム

Google DeepMindが開発した『AutoRT』は、VLM(視覚言語モデル)とLLM(大規模言語モデル)を活用して、『ロボットが動いたデータをロボット自身が集めるシステム』です。たくさんのロボットを同時に動かし、さまざまな作業をさせながら、実際の現場の環境で大量のデータを集めていきます。

Google DeepMindの公式Webサイト external-link

これまで、ロボットに何かを学ばせるためのデータを集めるのは、人が手作業でロボットを操作したり、動きを一つひとつプログラミングしたりする必要があり、とても時間と手間がかかる作業でした。皆さんも、もし自分がロボットの先生だったら…と想像すると、その大変さが分かるのではないでしょうか。AutoRTは、このデータ集めの作業を自動化することで、ロボットが学ぶ効率を飛躍的に上げてくれます。

AutoRTの仕組みはこうです。まず、ロボットについているカメラの映像から、VLMが周りの状況や物事を認識し、それを言葉で説明します。次に、LLMがその説明文と、『ロボット憲法』と呼ばれるルール(例えば「人間に危害を加えない」といった安全ルールなど)を照らし合わせながら、ロボットができそうな作業をいくつか提案します。

ロボットは、提案された作業の中から、安全で実行できると判断したものを自分で選んで実行し、その過程で動きのデータやセンサーのデータなどを集めていきます。そして、複数のロボットをいろいろな場所で動かすことで、さまざまな状況でのデータをたくさん集めることができるのです。

AutoRTのおかげで、データ集めの自動化・効率化が進み、人の手を借りなくても大量のロボットの動作データを効率よく集められるようになります。その結果、これまでの手作業でのデータ収集と比べて、もっと多様な状況でのデータが手に入り、ロボットの学習を加速させることができるのです。

AutoRTは、生成AI、特にVLMとLLMを組み合わせることで、ロボット学習の大きな壁だったデータ収集の問題を解決し、より賢いロボットの実現に貢献するシステムと言えるでしょう。

AutoRTのページ(英語) external-link
AutoRTのページ(日本語で読む) external-link

生成AIで進化するピッキングロボットの能力:3つの可能性

さて、ここまでにご紹介した事例を踏まえて、VLMやLLMといった生成AIが、ピッキングロボットに具体的にどのような進化をもたらす可能性があるのか、一緒に見ていきましょう。大きく分けて3つの可能性が考えられます。

①高度な画像認識:初めて見る形や向きの物体、そっくりな商品も見分ける

従来の画像認識技術では、事前に「こういう形ですよ」「こういう模様ですよ」と登録されたものしか認識することができませんでした。いわゆる『マスタデータ』を必要とするタイプの画像認識がこれにあたります。

どの技術が使われているかは企業秘密であることも多いので断言はできませんが、最近では深層学習というAI技術をベースにした画像認識がよく使われているようです。このタイプは、メーカー側で膨大な数の学習データを集めてAIに学習させることで、導入する際にはマスタデータを必要としないものです。

ただ、従来の深層学習をベースとした画像認識製品は、メーカーが集められる画像データだけを学習データとして使っていて、文字の情報はあまり活用していないのではないかと私たちは考えています。

それに対して、大手IT企業が開発しているVLMは、インターネット上にある膨大な量の画像データと、それに関連する言葉のデータを一緒に学習している点で、より優れていると言えるでしょう。今後は、商用で利用できるVLMをベースに開発された新しい画像認識製品が登場することで、従来のマスタ登録型や深層学習型では難しかった、さらに高度な画像認識が可能になるかもしれません。そうなると、例えば次のようなことができるようになるのではないでしょうか。

  • 不定形な商品、柔らかいもの、光を反射する商品の認識
    形が決まっていない商品や、ふにゃふにゃした柔らかいもの、ピカピカ光る商品なども、正確に見分けられるようになるかもしれません。

  • バラ積み状態の商品
    山積みになった商品の中から、目的の商品を見つけ出し、それがどこにあってどんな向きになっているかを正確に把握できるようになるでしょう。

  • 類似商品の識別
    パッケージや形がそっくりな商品でも、ラベルの文字や細かい特徴から、ちゃんと区別できるようになるはずです。

VLMは、たくさんの画像と言葉のデータから学習することで、物事の本質を理解する『汎化された知識』を獲得します。これは、特定の商品だけでなく、これまで見たことのない未知の商品にも対応できる可能性を秘めているということなのです。すごいと思いませんか?

②最適な把持計画:さまざまな商品の特徴に合わせて、一番良い持ち方を選ぶ

商品を手に取るとき、私たちは無意識にいろいろなことを考えていますよね。その商品の形や素材、重さ、壊れやすさなどに応じて、どの指で、どこを、どれくらいの力で持つのが良いかを判断しています。従来のロボットでは、こうした判断を人が設定してあげる必要がありましたが、学習済みのVLMやLLMを活用することで、ロボットが自分で最適な持ち方、つまり『把持計画』を立てられるようになる可能性があります。

例えば、VLMやLLMは、次のような判断をしてくれるようになるかもしれません。

  • グリッパー(ロボットの手)の選択
    商品の形や素材、重さなどを考えて、一番適したグリッパーを選びます。吸盤で吸い付けるタイプ、指で挟むタイプ、複数の指があるタイプなど、いろいろなグリッパーの中から、最適なものを自動で判断してくれるのです。

  • 持つ位置の決定
    商品の形や向きを分析して、安定して持てる場所を計算します。

  • 持つ力の調整
    商品の素材や壊れやすさを考えて、ちょうど良い力加減で持ってくれます。

VLMやLLMは、過去のピッキング作業のデータや、インターネット上にある膨大な商品情報などを学習することで、まるで人間のように経験に基づいて判断できるようになるのです。

もし、うまく持てなかった場合でも、なぜ失敗したのか、どうすれば次はうまくいくか、などを言葉や画像で説明させることで、VLMやLLMが継続的に学習するためのデータを自動で作り、蓄積していくことも可能になるかもしれません。そうなれば、ロボットはどんどん賢くなっていきますね。

③自律的な動作調整:周りの変化や予期せぬ出来事にも対応する

物流倉庫の中は、いつも同じ状態とは限りません。商品の置かれる場所が変わったり、通路に障害物が置かれたり、予期せぬトラブルが起きたりすることもあります。このような状況の変化に対して、ピッキングロボットは柔軟に対応する必要があります。

VLMは、リアルタイムで周りの状況を認識し、その場に応じた適切な判断をすることができます。例えば、以下のような状況に対応できるようになるかもしれません。

  • 注文内容に応じた作業
    何万種類もの商品を管理する倉庫では、一度の注文に含まれる商品の組み合わせは、さらに膨大な数になります。事前にプログラムしなくても、注文に応じて商品の組み合わせを理解し、ピッキングできるようになるかもしれません。

  • 障害物への対応
    ピッキング作業の途中で、ロボットアームが動く範囲に障害物が入ってきた場合、それを認識して上手に避け、目的の作業を完了させます。

  • 荷崩れへの対応
    もし商品が崩れてしまっても、崩れた商品の位置や向きを認識し、もう一度ピッキングできるように動きの計画を修正します。

そしてLLMは、VLMが認識した状況に基づいて、どう行動するのが一番良いかという『行動計画』を作り出すことができます。例えば、障害物を見つけたら、LLMはロボットアームが障害物を避けられる新しい経路を計算したり、場合によってはピッキング作業を一旦止めて、人間の作業員に助けを求める、といった判断を状況に応じて行えるようになるのです。まるで、自分で考えて行動するパートナーのようですね。

生成AIによって進化するピッキングロボットのアーキテクチャ

VLMやLLMといったAIの進化は、ピッキングロボットの内部構造、つまり『アーキテクチャ』にも大きな変化をもたらしています。ここでは、特に重要と思われる2つの変化について、一緒に見ていきましょう。

VLM/LLMのカスタマイズ:あなたの倉庫にぴったりのピッキングロボットへ

大手IT企業が発表したVLMやLLMは非常に賢いのですが、それをそのままピッキングロボットに使っても、すぐに高精度なピッキングができるわけではないと私たちは考えています。

なぜなら、インターネット上にある膨大なデータから学んだ知識は、あくまで一般的で抽象的なものだからです。それを実際の物流現場で役立てるには、その業界特有の事情、拠点ごとの特性、あるいは具体的な業務内容に合わせて、AIを『カスタマイズ』する必要があるのです。

ピッキング作業の内容、特定の環境や扱う商品の種類、作業の手順などに合わせてVLMやLLMを調整することで、より精度が高く、効率的なピッキングロボットが実現できるはずです。

例えば、こんなカスタマイズが考えられるのではないでしょうか。

  • 周りの設備・装置に合わせた動作計画
    ロボットの周りにある棚やコンベアといった設備や機器の配置情報をAIに取り込むことで、障害物を上手に避けたり、もっと効率的な移動ルートを見つけ出したりできるようになるかもしれません。そうなれば、1台のロボットがいろいろな設備や機器を使いこなしながら、複数の作業をこなすことも可能になりそうです。

  • 特定の商品に特化した学習
    ある特定の商品グループの画像データを集中的に学習させることで、その商品グループを見分ける精度をぐんと高めることができるようになるかもしれません。例えば、アパレル倉庫なら、洋服の画像データをたくさん学習させることで、洋服の認識精度を上げることができます。

  • 作業手順の学習
    人間が行っている作業の手順をAIに学習させることで、人間と同じような流れでロボットが作業を再現できるようになるかもしれません。例えば、特定商品の梱包方法を学習させれば、人間と同じように丁寧に梱包作業を行うロボットが実現できるかもしれませんね。

このようなVLMやLLMのカスタマイズを実現するためには、実は『データ』が非常に重要になってきます。自社で自由に使うことができ、カスタマイズに必要な質の高いデータを、長期間にわたって集め、蓄積していくこと。これが、他社との違いを生み出すための大切な要素になってくると、私たちは考えています。

SLMs(Small Language Models)によるロボットへの実装とエッジAI

VLMやLLMは、確かに非常に高性能なAIですが、その一方で、とても『巨大』であるという側面も持っています。そのため、動かすためにはたくさんの計算パワーが必要となり、現状では、クラウド上にある強力なサーバーで動かすのが一般的です。

しかし、最近になって、『SLM(Small Language Model:小規模言語モデル)』と呼ばれる、もっと軽量化されたLLMの開発が進んでいます。SLMは、従来のLLMに匹敵するくらいの性能を保ちながら、サイズを大幅に小さくすることに成功しており、ロボットのような端末側の処理能力が上がってきていることもあり、将来的にはロボットに直接SLMを『搭載』することも可能になりつつあります。

実際に、GoogleのGemini NanoやMicrosoftのPhi Silicaなど、ノートパソコンでも動くような軽量なSLMが発表されています。これらのSLMは、従来の大きなLLMでは難しかった、ロボットシステムそのものの上でAIを動かすという可能性を秘めているのです。

もし、ロボットシステムにSLMが搭載されるようになれば、ピッキングロボットシステムの仕組みも大きく変わっていくことでしょう。これまでクラウドサーバーに頼っていた処理がロボットシステムの中で完結できるようになり、それによって『より速い処理速度』、『インターネットに繋がっていないオフライン環境での動作』、そして『セキュリティの向上』などが期待できます。これは大きな進歩だと言えそうですね。

未来の物流倉庫:生成AIが実現する人とロボットの協働

VLMやLLMを含むAI技術が進歩していくことで、ロボットができる作業はますます増えていくでしょう。そんな未来の物流倉庫は、一体どんな場所になるのでしょうか?私たちは、ロボットと人間がそれぞれの得意なことを活かし、お互いに協力し合う、より効率的で、安全で、そして働く人にとってもやりがいのある場所に進化していくと考えています。

それでも、高度なAIを搭載したピッキングロボットが、人間の作業を完全に取って代わるわけではありません。むしろ、大切なのは『人間とロボットの協働』です。これによって、物流倉庫全体の生産性を高めていくことが期待されています。

考えてみてください。ロボットは、単純な作業や、何度も繰り返す作業、重い荷物を運ぶこと、危険な場所での作業などが得意です。一方で、私たち人間は、複雑な状況を判断したり、その場その場で柔軟に対応したり、新しいアイデアで問題を解決したりすることが得意ですよね。

AI技術が進化することで、ピッキングロボットは初めて扱う商品や荷姿、そして変化する環境にも対応できるようになり、これまで以上に多くの作業を自動化できるようになるでしょう。

24時間休むことなく働くロボットたちが、倉庫の中を効率よく動き回り、膨大な数の商品を正確にピッキングする。そんな未来の倉庫では、人手不足の問題も解消され、人間が起こしがちなミスもなくなるかもしれません。

しかし、それでもなお、人間の力は必要とされるはずです。ロボットが人間の指示を理解し、自分で考えて作業を行う一方で、人間はロボットの動きを見守り、必要な時には指示を出したり、サポートしたりする役割を担うことになるでしょう。

また、ロボットのメンテナンスや、システム全体がうまく動いているかの監視、商品の品質管理といった、より高度な判断が求められる作業にも、人間の力は欠かせません。さらに、生成AIを活用した新しいシステムの開発や運用など、これまでにない新しい仕事も生まれてくるかもしれませんね。

ロボットが単純作業を代わりに行ってくれることで、人間は、もっと創造的で付加価値の高い作業に集中できるようになります。これは、従業員の皆さんの『労働環境の改善』にも繋がり、物流業界全体の魅力を高めることにも貢献できるのではないでしょうか。

倉庫のレイアウト自体も、ロボットと人間が一緒に働くことを前提として設計され、通路の幅や棚の高さ、照明などが最適化されていくでしょう。ロボットが安全かつ効率的に作業できるスペースを確保しつつ、人間も働きやすい環境を実現することが大切になります。

AI技術の進歩は、物流倉庫における人とロボットの協働を後押しし、より効率的で、安全で、そして働く人にとってもやりがいのある倉庫を実現する可能性を秘めているのです。なんだかわくわくしてきませんか?

さいごに

前回と今回の2回にわたって、ピースピッキングロボットについて一緒に考えてきました。前編では、ピースピッキングロボットがどのような仕組みで動いているのか、そしてこれまでの技術ではどんなことが難しかったのか、という基本をお話ししました。そして後編となる今回は、VLMやLLMといった生成AI技術が、ピッキングロボットをどのように進化させるのか、具体的な活用事例を交えながら、未来の物流倉庫がどんな姿になるのかを想像してみました。

従来のピースピッキングロボットは、あらかじめ教えられたものしか上手に扱えず、初めて見る商品やいつもと違う荷姿、あるいは作業場所の変化に対応するのは苦手でした。これは大きな課題でしたね。

しかし、VLMやLLMといった生成AI技術の登場は、まさにゲームチェンジャーと言えるかもしれません。ロボットが、まるでインターネット上にある人間の膨大な知識を使えるようになるため、ピッキングロボットの進化を大きく後押しする可能性を秘めているのです。

すでに、Covariant.aiのRFM-1やSereactのPickGPTといった、生成AIを活用したピッキングロボットが実際に登場し、これまでよりも多様な商品や荷姿でのピッキング、さらには人間が話す言葉による指示への対応などを実現しつつあります。また、Google DeepMindのAutoRTは、VLMとLLMを使って、ロボット自身が学習データを集めることを可能にし、ロボットが賢くなるスピードを飛躍的に上げています。

さらに、SLM(小規模言語モデル)やエッジAIといった新しい技術の登場により、ピッキングロボットはより速く処理できるようになり、インターネットがない場所でも動いたり、セキュリティ面でも安心できるようになったりすることが期待されます。また、VLMやLLMを、それぞれの倉庫や商品に合わせてカスタマイズすることで、もっと精度が高く、効率的なピッキング作業が可能になると考えられます。

生成AI技術の進化は、ピッキングロボットが持つ可能性を最大限に引き出し、物流倉庫での人とロボットの協力を促すことで、未来の物流倉庫の姿を大きく変えていく力を持っています。より効率的で、より安全で、そして働く人にとってもより魅力的な倉庫が実現するかもしれません。そんな未来をもたらす生成AI技術の進化に、これからも一緒に注目していきましょう。

もし、皆さまの現場で「こんなことに困っているんだけど、AIで何かできないかな?」といったお悩みや、「うちの倉庫でも、もっと自動化を進めたいんだけど、どこから始めたらいいんだろう?」といったご相談がございましたら、どうぞお気軽に私たちにご連絡ください。何かヒントが見つかるかもしれません。

物流ロボット関連のインサイト

当社について

BLUEDGE(ブルーエッジ)では、 「あるべき姿」をともに描くコンサルティング「あるべき姿」をカタチにするシステム開発 を通じて、お客様の戦略策定から実行までを一貫体制でご支援しています。日本ロジスティクスシステム協会(JILS)会員。

著者プロフィール

守谷祥史(Shoji Moriya)

BLUEDGE合同会社 代表社員CEO。15年以上にわたり製造業、小売・流通業、物流業などを中心に幅広い業界に対する事業/IT戦略の立案と業務改善、システム導入など実行に関するコンサルティングに従事。現在は、主にサプライチェーン・物流分野におけるソフトウェア、クラウド、AI、ロボティクスなどテクノロジー活用に関するコンサルティングとシステム開発を専門としている。

著者:代表社員CEO 守谷祥史

サービス紹介や無料相談のご案内はお気軽にお問い合わせください。