Laboro.AI、強化学習を用いた「組合せ最適化ソリューション」をリリース
- 2021/12/26
- ものづくり
- 強化学習, 組合せ最適化ソリューション, 試行錯誤
Laboro.AIは24日、強化学習により機械自らが試行錯誤を通して、膨大な組合せの中から最適なものを選択する『組合せ最適化ソリューション』をリリースしたと発表した。
本ソリューションは、強化学習を用いることによって、一般的な最適化手法と比べて学習データを活用するため最適化に要する時間を短縮できること、問題依存のチューニングの手間を低減できることが見込まれ、工程スケジューリングや配達経路の最適化、アルバイトシフト計画や船舶の積荷配置計画の策定など、様々なビジネスシーンでの活用が期待できるという。なお、本ソリューションは汎用化されたソリューションとしてではなく、個社ごとにオーダーメイド開発することを通して提供する。
同社では今後も、機械学習技術を用いたオーダーメイドAIソリューション『カスタムAI』をより多くの産業の企業に導入されることを目指すとともに、イノベーション創出のパートナーとして引き続き精進していくとしている。
強化学習とは、エージェントと呼ばれる主体が、試行錯誤を通して最適な行動を実現する機械学習手法の一つ。エージェントは、一連の行動を通して得られる報酬を最大化するように学習することで、自らの行動を最適化していく。
強化学習のイメージを掴むため、ロボットの歩行制御を例として、ロボットができるだけ遠くまで歩けるよう制御を実現したいケースを考えた場合、強化学習の枠組みでは、ロボットがより遠くに歩けるほどより多くの報酬を与える。機械が試行錯誤を通してより大きな報酬を得られるよう行動を学習していくため、学習するにつれてロボットはより遠くまで行ける良い歩き方を身につけていく。良い歩き方を学習しさえすれば、似たような状況においては短い推論時間で歩行制御を行えるようになる。
仮にロボットの歩行制御を教師あり学習で行うとすると、ロボットの右足や左足をどう動かすのかといった行動一つ一つに良い/悪いといったラベルをつける必要があるが、一方、強化学習では、歩いた距離という一連の行動を通して得られる報酬を設定すれば、あとは機械が自動で制御機能を獲得していくことが可能となる。