Laboro

Laboro.AIコラム

正解のない課題にこそ生きる「強化学習」の基本

2023.4.7
株式会社Laboro.AI リードマーケター 熊谷勇一

概 要

AIは学習によって精度が左右強化されるため、取り組むべき課題に最適な学習方法を選ぶことは非常に重要です。学習方法の一つである「強化学習」について、特徴や代表的なアルゴリズム、教師あり・なし学習との違い、進化の過程、導入のメリットや課題、活用事例を解説します。

目 次

強化学習とは
 ・Q学習
 ・SARSA
 ・モンテカルロ法
 ・「強化」が指す意味
教師あり学習と教師なし学習
 ・教師あり学習
 ・教師なし学習
強化学習のこれまでの進化
  ・AlphaGo
  ・AlphaGo Zero、AlphaZero
  ・MuZero
強化学習AIを導入するメリット
強化学習AI導入の際の課題
ビジネスにおける強化学習の活用事例
 ・建設物の制振制御
 ・シフト最適化
 ・配船計画の最適化
 ・無線通信のカバレッジ調整の自動化
正解のない課題に取り組む

AIは学習によって精度が左右されるため、取り組むべき課題に最適な学習方法を選ぶことは非常に重要です。学習方法の一つである「強化学習」について、特徴や、教師あり・なし学習との違い、活用事例を解説します。

強化学習とは

主な機械学習の方法には「教師あり学習」「教師なし学習」「強化学習」の三つがあります。強化学習を一言で言えば、「行動を学習する仕組み」です。AI自らが試行錯誤することを通して、ある環境下で得られる報酬(スコア)を最大化するための行動を学習する手法です。

例えば自動運転技術において、強化学習では、自動車(技術的にはエージェントと言います)の周りの人などの存在や信号の色などの状態(環境と言います)を情報として受け取り、それを踏まえて直進、右折、停止などの行動を選択し、するとまた環境が変わって新しい情報を受け取って次の行動をして…という具合に、状態の把握と行動を繰り返していきます。

そのシミュレーションの際、取った行動が適切であればあるほど報酬として高いスコアを与えます。すると、エージェントは最初のうちは信号を無視したり、壁に当たったりしますが、そのような行動ではスコアを得られず、「青信号で直進する」「信号がなくても横断歩道に歩行者がいれば停止する」といった高いスコアが得られる行動を次第に取っていくようになります。試行錯誤を重ねながら学習していくのです。試行の回数は一般的に何千回、何万回に及びます。

強化学習では、エージェントが学習するための学習データを用意する必要がありませんし、報酬を最大化するための一連の意思決定ができることになります。言い換えれば、あらかじめ集めておいた大量のデータではなく、刻一刻と変化する環境を入力としています。なお、前者のようなデータの在り方は変化することがないので「静的(static)」、後者のような変化し続けるデータは「動的(dynamic)」と分類されることがあります。

強化学習の代表的なアルゴリズムには、Q学習、SARSA、モンテカルロ法などがあります。

Q学習

最も代表的な手法がQ学習(Q-Learning)です。Q関数と呼ばれる行動価値関数を学習して制御を実現します。行動価値関数Q(a|s)とは、s(t)(時刻tのときの状態s)の際に行動aを取った場合、その先どれくらいの報酬がもらえそうかを出力する関数です。例えば、左右に動かせる台の上に棒を立て、なるべく長く立たせるように台を制御したいとします。台を左に動かすときと、右に動かすときの出力を比べ、報酬が多い方を選べば、棒がより長い時間立ち続けることになります。

SARSA

SARSAは、現在の状態sで、行動aを取り、エージェントが報酬rを得て次の状態s1に到達し、s1で行動a1を取り…と行動ごとに報酬を得て学習していきます。これらのアルファベットs, a, r, s, aをつなげてSARSAと名付けられました。

Q学習では前述の通り、将来の報酬が最大化するように行動を取るため、一つひとつの行動に「棒が右に傾いたときに垂直に戻すための最適な行動」といった、ある時点ごとの方策に基づくことを重ねているわけではありません。違う言い方をすれば、目的に向かって楽観的に、最短経路で進みます。一方SARSAは、行動ごとに報酬が設定されているため、一つひとつの方策に従って行動していると言えます。そのためQ学習と比べると、慎重に安全な経路で進みます。

モンテカルロ法

とにかく数多くの試行をしてデータを集め、最良の結果を出した方法を選ぶ手法です。2人が対戦するゲームの勝ち方を学習する場合、コンピュータが2人の仮想的なプレーヤーを演じ、完全にランダムに手を差し続けてゲームをシミュレーションし、とにかく終局(プレイアウト)させてしまいます。ある局面からプレイアウトを複数回実行すると、どの方法が一番勝率が高いか計算できます。

なおこの名前は、モナコ公国のカジノで有名な地区モンテカルロが由来です。

「強化」が指す意味

強化学習は英語Reinforcement Learningの和訳です。Reinforcementは何かを強化するための一連の工程を指しますから、上記の強化学習の説明や例で指す内容にぴったりです。また、補強や増援という意味も持ち、外部から何かしらリソースを供給するということで、強化学習の「刻一刻と変化する環境の情報を得続ける」という面と共通しています。

一方、先端技術において「強化学習」と聞くと、機動戦士ガンダムシリーズに出てくる「強化人間」を思い出す人がいるかもしれません。強化人間はArtificial Newtypeと英訳されるようです。Artificialはもちろん、奇しくもAI(Artificial Intelligence)のAと同じです。そしてシリーズ最新作『機動戦士ガンダム 水星の魔女』には「強化人士」が登場し、こちらはEnhanced personsと英訳されるようです。Enhanceには「強める」という意味はありつつも、reinforcementと違って、「もともと優れている質や能力をさらに高める」という意味の核を持っていて、強化学習の強化とは異なります。

教師あり学習と教師なし学習

一方、機械学習の他の種類である教師あり学習と教師なし学習では、AIが学習するためのベースとなる学習データが必要です。比較して強化学習をより理解するためにも、これら二つの学習方法も解説します。

教師あり学習

与えられたデータ(入力)を元に、そのデータがどんなパターン(出力)になるのかを識別・予測する方法です。学習データに正解を与えることから教師あり(supervised)という名前が付けられました。例えば「過去の売り上げから将来の売り上げを予測する」「与えられた画像にある動物が何の動物なのかを識別したい」といったときに活用できます。

さらに、教師あり学習は二つに分類できます。例で挙げた前者では、過去から未来へと連続して変化していく数値を予測する問題は「回帰問題」と呼ばれ、後者の動物の種類のように互いに連続しない値を予測する問題は「分類問題」と呼ばれます。どちらの問題になるかで用いる手法も変わります。

教師なし学習

「教師なし学習」は、学習データに正解を与えない状態(unsupervised)で学習させる学習手法です。予測や判定の対象となる正解が存在しないため、教師あり学習とは違って回帰や分類の問題には対応できません。

教師なし学習の代表的な手法に「クラスタリング」があります。クラスタリングはデータの特徴からグループ分けします。例えばA、B、Cという特徴を持つデータが無造作に配置されていた場合、人間であれば正解を示さずともAグループ、Bグループ、Cグループとグループ分けできます。教師なし学習のクラスタリングを用いると、自動的にグループ分けすることができます。

このように教師なし学習は、正解・不正解が明確でない場合に効果を発揮します。

強化学習のこれまでの進化

強化学習はゲームの分野で進化してきました。コンピュータに取り込んだゲームでは試行・シミュレーションが容易で、多数回にわたる試行を経た学習に向いています。特に、強化学習の名前を世に広めるきっかけとなったゲームAIとしては、Googleの関連企業であるDeepMindが開発した「AlphaGo」が知られています。

AlphaGo

AlphaGoは勝利という報酬のために囲碁の打ち筋を学習し、人間では勝てない領域にまでなりました。2015年に登場し、2017年に当時最強と言われていた棋士、柯潔(カケツ)に勝利したことで人間との対局を引退しています。AlphaGoが衝撃だったのは、囲碁がボードゲームの中でも特に局面が多くて難しく、AIが人間に勝つことはできないと考えられていたためでした。AlphaGoは囲碁に特化したAIですが、強化学習によってAIがこれまでは考えられなかった性能を発揮した点で、AIの可能性を大きく広げたと言われています。

AlphaGoは、方策関数と状態価値関数という役割を担う二つのニューラルネットワークと、ロールアウトと呼ばれるシミュレーション部分、そして囲碁のルールに基づいてニューラルネットワークへの入力を作ったり探索時のゲーム木を展開したりするプログラムで構成されています。革新的であったのは、ニューラルネットワークに基づく技術を従来技術の枠組みの中で高いレベルで統合して、さらに強化学習による棋力の向上に道筋を付けたことにあります。

また、上記のようにニューラルネットワークを基にした深層学習(ディープラーニング)と強化学習を組み合わせている手法は、深層強化学習と呼ばれます。

AlphaGo Zero、AlphaZero

AlphaGoが人間との対局から引退した後もDeepMindは開発を続け、過去の対局データを学習せずに自身の対局データだけを元に囲碁の勝ち筋を学習していく「AlphaGo Zero」を発表しました。AlphaGo Zeroは、全く何もない状態から学習を開始し、40日でそれまでのAlphaGoに勝利するようになりました。

AlphaGoでは、ニューラルネットワークの作成の最初の段階で人間の棋譜を用いていました。また、従来型の手作りでチューニングされたシミュレーション部を用いていました。加えて、ニューラルネットワークへの入力も、囲碁についての人間の知識を反映できるように注意深く設計されていました。

AlphaGo Zero は、これらの人手によるチューニングに依存した部分をなくして、ゼロから構成する手法を提案しました。AlphaGoの強化学習では方策関数だけを使って自己対戦と最適化を繰り返していましたが、AlphaGo Zero は方策関数と価値関数の両方を同時に強化していく方法をとっています。

AlphaGo Zeroはその後、囲碁だけでなく、将棋やチェスなどの任意のゲームにも対応できる「AlphaZero」へと発展し、学習を始めて8時間でAlphaGo Zeroに勝利できるようになりました。

MuZero

AlphaZeroによって、ボードゲームであれば、そのゲーム専用の人間の知識なしでゼロから強化学習できるようになりました。しかしその探索部分は、ゲームごとに局面の遷移をプログラミングする必要が依然としてあり、一般のゲームへ適用できないという問題がありました。

そこでDeepMindは2020年に、探索における状態の遷移自体もニューラルネットワークによって実現した、さまざまな人間のトッププレーヤーを上回る腕前でプレーできる汎用ゲームAI、「MuZero」を2020年に開発しました。これにより、2人ゲームだけでない任意のビデオゲームに対応できるようになりました。

強化学習AIを導入するメリット

まず、正解がない課題に対してAIが自分で学習を続けて最適な行動を追求できる点が挙げられます。教師あり・なし学習と比べると、まとまった量の学習データを必要としない点も導入しやすい点として挙げられます。

例えば、囲碁などのボードゲームのプレイ、自動運転、アンドロイドの動きなど、人間の真似事をさせたい場合、課題に正解も不正解もありませんので、強化学習が適しています。

強化学習AI導入の際の課題

強化学習によるAIの導入で課題となるのは、AIが目標に対して最適な手段を探し出し、ビジネスにおいて実用レベルに達するまでに、膨大な時間と手間がかかる点です。

強化学習は、自転車の乗り方の習得に例えられることもあります。人間が自転車に乗れるようになるまでに転ぶ回数はせいぜい 数十回程度でしょう。しかし強化学習では数万回レベルのシミュレーションが必要になります。

また、細かな検証をしていく手間も出てきます。例えば自動運転では、一つひとつの技術を見れば驚くようなレベルに達しているものが登場していますが、実際に公道を走る際は人間ではあり得ないミスや不具合が発生することがあります。それらがひとたび起きれば人命に関わる事故につながる可能性があるため、徹底的な検証が必要です。

ビジネスにおける強化学習の活用事例

ビジネスにおける強化学習の活用事例をご紹介します。

建設物の制振制御

Laboro.AIが大林組と共同で取り組んだ制振制御のプロジェクトがあります。建物が地震などの揺れによる被害をしのぐ手段の一つである「制振」では、マスダンパーと呼ばれる重りを建物内に設置し、これを揺らすことで地震の揺れを制御します。

このプロジェクトでは、この制振のうちセンサーで揺れを感知してマスダンパーをアクティブに動かす「アクティブ制振」において、どのように動かせば効率良く制御できるかの学習を強化学習で実現しました。

詳しくはこちらをご覧ください。
建設物の制振制御

シフト最適化

非常に多くのパターンが考えられ、最適な組み合わせを導き出すのが困難なテーマを組み合わせ最適化問題と言います。この組み合わせ最適化の例として、例えば勤務スタッフのシフト最適化が挙げられます。少人数の現場であれば難しくはなくても、人数が多かったりシフトのパターンが多かったりすると、人力で最適な組み合わせを見つけ出すのに膨大な時間がかかったり、最適解にたどり着けなかったりしてしまいます。

Laboro.AIでは、このような組み合わせ最適化問題を強化学習を用いて解くソリューション「組合せ最適化ソリューション」を発表しています。最適化問題に強化学習を適用することのメリットとしては、最適化問題が大きくなっても、強化学習では最適化に要する時間(推論時間)が大きくなりにくいという点です。また、最適化問題に対してほぼ一つの枠組みでアルゴリズムの構築が可能な点もメリットです。

詳しくはこちらをご覧ください。
組み合わせ最適化ソリューション

配船計画の最適化

強化学習を具体的な社会問題の解決に用いようとした例として、出光興産とグリッドが共同で進めている配船計画最適化のプロジェクトがあります。配船計画におけるルートの数は膨大であり、配船計画の作成は経験豊富なスタッフに依存せざるを得ませんでした。AIによって最適化・自動化することを目指して実証実験をしたところ、最大約20%も効率化できたとしています。

無線通信のカバレッジ調整の自動化

モバイル通信事業者が基地局を設置して無線エリアのカバレッジを形成している中で、その調整を自動化するのに深層強化学習が活用されています。無線基地局は都市部などでは非常に数多く設置されていて、互いに干渉しないように、またエリアの欠けや抜けができないように設定を調整して、適切なカバレッジの確保を実現しています。これを実現するには、測定車を走らせて計測した上で専門家が日々さまざまな調整が不可欠で、ビルが新しく建てられたり、人流の在り方が違ったりしても調整の最適解は変わってきます。「新しくビルが立ったりすると、改めて人手で調整しなければなりません。この調整を深層強化学習で自動化する例が出てきています。

正解のない課題に取り組む

現代はVUCA(Volatility(変動性)、Uncertainty(不確実性)、Complexity(複雑性)、Ambiguity(曖昧性)の頭字語で、先行きが不透明で将来の予測が困難な状態)の時代と言われて久しくなりました。実際に、コロナ禍のようなパンデミックの発生の可能性は語られてきたものの、これだけ長期間、広範囲にわたるという予測は見掛けられませんでした。先行きが不透明ということは、何が正解になるかが状況によって移り変わっていったり、そもそも正解が存在しなかったりするということです。正解がない課題に取り組む強化学習は、今の時代に合った技術と言えるかもしれません。

Laboro.AIでは、強化学習によるAIの産業実装の実績も保有しています。。また正解がない課題に取り組むという面では、当社オリジナルのAIコンサルタント「ソリューションデザイナ」は日々、取り組むべき課題に向き合い、エンジニアと共にビジネスソリューションとしてカスタムAIの企画・設計に取り組んでいます。正解が見えないビジネス課題の解決こそ、ぜひ当社にご相談ください。

出典:
猪狩宇司ら『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版』
NTT東日本「教師なし学習とは?覚えておきたい機械学習の学習手法概要
これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ
GDEPソリューションズ「AlphaGo とその後
物流話「出光興産/グリッドと業界初の深層強化学習を活用した配船計画最適化の実証実験を完了
WirelessWire News「強化学習による無線エリアの最適化や基地局の省エネ運用など、AIによる自動化の最新技術を見る

カスタムAIの導入に関する
ご相談はこちらから

お名前(必須)
御社名(必須)
部署名(必須)
役職名(任意)
メールアドレス(必須)
電話番号(任意)
件名(必須)
本文(必須)

(プライバシーポリシーはこちら