Laboro

Laboro.AIコラム

「教師あり学習」「教師なし学習」とは。
文系ビジネスパーソンのための機械学習

2020.12.17

概 要

総務省の情報通信白書 令和2年版によると、国内企業のAI導入率は14%を超え、ビジネスでのAI活用は、DXブームの波も受けながら、ますます重要な取り組み事項になってきています。

企業におけるAI導入シーンでは、AI開発を得意とするAIベンダーと協力してプロジェクトを推進することが主流になっており、AIに関する知識が最低限でもあればベンダーとのスムーズなやり取りが可能になります。

とはいえ数字、統計をベースとするこの領域で、専門的な技術に理解を深めることはそう簡単ではありません。そこで今回は、かなり初歩的な内容かもしれませんが、文系ビジネスパーソンの方にも理解していただきやすいよう、わかりやすさを重視しながら、機械学習の中でもよく耳にする教師あり学習、教師なし学習などの概要について改めて振り返っていきたいと思います。

出典:総務省|令和2年版 情報通信白書|令和2年 情報通信白書のポイント

目 次

機械学習の分類
教師あり学習とは
 ・教師あり学習のプロセス
教師なし学習とは
 ・教師なし学習のアルゴリズム
半教師あり学習
 ・半教師あり学習の代表的な活用法
強化学習
まずは機械学習のイメージを持つことも大切

機械学習の分類

そもそも「AI」は定義も曖昧な、非常に広い概念です。近年のAIの劇的な進歩をもたらしたのは、よく耳にする「ディープラーニング」を含む「機械学習」という技術領域の進化が背景にあると言われます。

機械学習とは、例えば、社内に長年蓄積された文書データや数値データなど、こうした大量のデータをコンピュータに学習させ、その中から特定のパターンや分類ルールなどを導き出す技術の一つです。

とはいえデータが多ければいいという訳ではなく、機械学習で用いるデータは、質も重要です。例えば、営業担当者ごとに好き勝手&属人的に書かれた営業日報の文書データが大量にあったとしても、そこに何の規則性や一定性もなければ、営業状況の傾向が見出せないのはなんとなく想像がつきやすいかと思います。

いくらAIだとは言っても、何のルールにも基づかずに作成されたデータを学習させても、やはり傾向や特徴を掴むことはなかなか簡単ではありません。一定の基準に従った正確かつ意味のあるデータを用いることが、分類や予測などの精度を高めるためには非常に重要なポイントになります。

そして、機械学習という技術は、文書の分類をしたいのか、社内システムの制御をしたいのかなどの目的に応じて、コンピュータに対するデータの学習のさせ方が変わってきます。その整理するためによく聞かれるのが、「教師あり学習」「教師なし学習」「半教師あり学習」「強化学習」の4つの分類です。

教師あり学習とは

教師あり学習は、機械学習のうち、データに正解のラベルを付与した上でコンピュータに学習させる手法を指します。コンピュータは大量の正解データを学習することでパターンやルールを見つけ出し、次に入力されたデータを学習したパターンやルールに則って分類できるようになっていきます。

例えば、ある農家で果物の分類を画像から行いたいと思った場合には、リンゴの画像には「リンゴ」のラベルを、ブドウの画像には「ブドウ」のラベルを……というように正解のラベルを付けていきます。そして、リンゴの特徴は何か、ブドウの特徴はどのポイントかというように学習させていきます。教師が生徒を指導する際に必ず正解を教える様子に似ていることから、教師あり学習と呼ばれているそうです。

教師あり学習のプロセス

正解のラベルの付いた大量のデータを学習させる教師あり学習では、大きく次の2つのプロセスでタスクを行います。

プロセス1:学習

まずは大量かつ良質なデータを用意し、コンピュータに学習させます。教師あり学習ではデータに正解のラベルうぃ付けることが前提となるので、データの数が増えるにつれ、そのルールやパターンをコンピュータ自身が学習しやくなります。例えば、リンゴの画像を色から判定する場合、「赤色」には幅がありますが、「赤身○%から○%までのものを赤リンゴとする」といったパターンをコンピュータに学習させることになります。

プロセス2:予測

次に、大量のデータを学習してパフォーマンスを上げたコンピュータに、正解のないデータを入力、これまで学習したパターンやルールと照らし合わせてデータを認識し、結果を予測します。上の例と同様にリンゴ画像の識別であれば、その色を読み取り、これまでのパターンと照らし合わせ、赤リンゴに該当するのか青リンゴに該当するのかを判断するといった具合です。

教師なし学習とは

教師あり学習に対し、与えるデータに正解ラベルを付与せずに学習させる手法を教師なし学習と言います。教師なし学習と教師あり学習は、学習の難易度や出力される精度が違うというわけではなく、達成したいタスクによって使い分けることになります。

教師なし学習は正解が与えられていない一方で、大量のデータに含まれる特定のパターンや類似性を学習し、それらの分類やルールの抽出を得意とします。例えば、顧客データの分類に用いるといった利用シーンが想定されます。正解ラベルのない顧客データを学習させることで、商品がどの層に売れているのか、どの時間帯に売れているのかといった分類をさせるような活用も見られます。

教師なし学習のアルゴリズム

教師なし学習の代表的なアルゴリズムとしては、「クラスタリング」と「アソシエーション分析」「GAN(敵対的生成ネットワーク)」「主成分分析」があります。

クラスタリング

クラスタリングは、その名の通り、データを分析し、そこにあるパターンを見つけ出し、グループ分けのルールを導き出す手法です。

クラスタリングでは、データ同士の類似度を見ます。そのデータ同士が近い数値を持っていれば、同じグループということでクラスタリングされます。クラスタリングされた1つひとつのグループを、クラスタと呼びます。顧客管理などに使われることが多く、顧客をさまざまなグループでクラスタリングすることで販売予測などに活かしていきます。

クラスタリングと混同されやすいのが「分類」です。機械学習においては、クラスタリングは教師なし学習、分類は教師あり学習で用いられます。分類は教師あり学習のため、データには正解が付与されており、コンピュータは正解の分かる学習データを分類した上でその特徴を学習していきます。一方のクラスタリングでは、データに正解がないため、コンピュータは近い特徴のデータを見つけて分類していきます。

代表的な応用例には、上記にもご紹介した顧客データの分類が挙げられますが、性年代など従来のデモグラフィック情報での市場のセグメンテーションから、より一歩進んだ市場分析に用いるといったことが期待できます。

アソシエーション分析

アソシエーション分析は、大量のデータを分析した上で、データ間の関連性を見つけ出す手法です。商品Aを購入する人は商品Bも一緒に購入する傾向があるといった関連性を見つけ出すためにも用いられるため、クロスセル戦略の立案のために活用されることもあります。

アソシエーション分析は、まさに店舗のPOSデータを分析するために開発された手法だとされており、POSデータからさまざまな関連性を抽出するためなどに用いられます。アソシエーション分析では、指示度・確信度・リフトと呼ばれる3つの指標を用いて、関連性の強さを分析します。学習させるデータ量が大きくなれば何百、何千という数の関連性が発見されることもあります。

GAN(敵対的生成ネットワーク)

少し毛色は異なりますが、昨今話題となったアルゴリズムとしてGAN(敵対的生成ネットワーク)をご紹介します。GANとは、2つのネットワークを戦わせるような仕組みを作ることで新たなデータを生成できる機械学習のアルゴリズムです。教師なし学習に分類され、かつ学習したデータから新たなデータを生成する「生成モデル」に分類されます。

GANでは、データの生成を行うGeneratorとそれの真偽を判別すDiscriminatorの2つのネットワークが使用されます。例えばGeneratorは、画家のデータを学習することでその画家の絵の特徴を学び、そこから画家のテイストに似せた贋作を作ります。そのデータを受けて、Discriminatorが真偽を判断します。

最初はあっさりと偽物だと判断されますが、Generatorは本物と判断されるように改善を重ねます。Discriminatorが本物だと判断すると、それは本物に限りなく近い偽物ということになります。GANは画像生成や音声の生成、動画の生成などに用いられており、白黒画像をカラーにする、テキストから画像を生成するといった活用が行われています。

主成分分析

主成分分析とは、複数ある変数から新しい変数を導き出し、変数を減らすことでデータを確認しやすくするアルゴリズムです。イメージとしては、身長と体重からボディマス指数(BMI)が導ける関係に近いと言えます。身長と体重という2つの変数があった場合、そこから肥満の人を導き出すのは大変ですが、BMIという1つの指標にまとめてあればひと目で分かるようになります。

主成分分析は複数の変数から新しい変数を作り、数を減らすため、分かりやすい代わりにある程度データを間引く特徴があります。上記の例で言えば、主成分分析を行ってBMIだけを示したデータを見ても、そこから身長や体重を個別に求めることはできません。

「教師なし学習」を使った事例

一部の事例となりますが、教師なし学習の活用方法としては、以下のような事例が挙げられます。

画像認識

画像認識では正解ラベルを与えた教師あり学習が一般的ですが、教師なし学習での事例もあります。当時話題となったのが、2012年にGoogleが発表した、猫の画像を認識したプロジェクトです。このプロジェクトでは、YouTube上にある動画を学習することで猫の特徴を学習し、未知のデータに対しても猫かそうでないかを判断できるようになったという成果が得られています。

AIによる画像認識の概要については、以下のコラムでもご紹介しています。
Laboroコラム「画像認識AIの世界。その仕組みと活用事例」

出典:ITmedia「文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説」

半教師あり学習

半教師あり学習は、教師あり学習と教師なし学習の中間に位置する手法です。手元にあるデータ全てにラベルを付与できない場合に用いられ、一部のデータはラベル付き、残りはラベルなしのデータをコンピュータに学習させるというものです。

と言うのも、データにラベルを付けるには、アノテーション(ラベル付け)の専門業者に協力をお願いすることも多く、大量のデータを用意するのが困難なケースも少なくありません。そういった場合には一部のみラベルを付与し、パターンや類似性を学習させた上で、残りはラベルなしのデータで学習を進めてくという手法が取られます。

半教師あり学習の代表的な活用法

一部のみラベルありのデータを用い、残りをラベルなしのデータで学習させる半教師あり学習は、私たち人がトレーニングを行う様子と似ているとも言われます。スポーツのトレーニングでは、最初にコーチから適切な動作を習いますが、その後は自身で反復練習を行うなどして精度を上げていくことができます。半教師あり学習も同じように、指標となる一部のラベルを元にラベルなしのデータを学習していきます。

半教師あり学習の代表的な活用として、「ブートストラップ法」と「グラフベースアルゴリズム」があります。

ブートストラップ法は、ラベルありデータをまず分類し、その分類規則に基づいてラベルなしデータを「これはこのラベルだろう」と予測して分類していく方法です。 一方のグラフベースアルゴリズムは、データ分布をもとにしてグループ分けを行います。一部のラベルありデータをもとに、「これと近い数値は同じラベルだろう」という予測をしながら近い数値のデータごとにグループ分けを行っていく手法です。

強化学習

強化学習は、教師あり、教師なし、半教師ありの3つと並べて語られる多い学習手法ですが、かなり気質が異なる学習手法です。強化学習は、誤解を恐れず簡単にお伝えすると、コンピュータ自らが試行錯誤をしながら、最適な答えを探す学習手法だと言えます。

具体的な技術の説明は別の機会にしたいと思いますが、イメージとしてお伝えすると、強化学習では「報酬」という考え方が用いられます。例えばエアコンの自動制御を考えた場合、AIが室内の環境を認識し、現在の状態からどれくらい温度を上げ・下げすればよいかを考え、温度操作の方策を取り、適温と評価された場合に報酬が与えられます。適温を維持すればするほど報酬が与えられ続けることになり、AIはより高い報酬を目指して自らの行動を強化させていきます。このように報酬を使って、コンピュータのプロセスを改善・強化させるような学習手法が強化学習です。

かなり有能に見える手法ですが、試行錯誤に少なくとも数千〜数万回ものシミュレーションが必要になることもあって、実際のビジネスシーンで応用を考えた場合には、教師あり学習、教師なし学習、半教師あり学習と比べても、導入の難易度が高い手法だと言われています。

強化学習の事例としてよく知られているのが、2015年にGoogleの関連会社「DeepMind」が開発したAI「AlphaGO」です。AlphaGOは囲碁をプレイするAIで、対局の勝利という報酬へ向けて学習を行うことで、人類最強だと言われていた囲碁棋士にも対局で勝利し、世間を驚かせました。

出典:WIRED「「AlphaGo」の誕生から囲碁「引退」までを振り返る:その進化の歴史から見えた、グーグルの壮大な野望」

まずは機械学習のイメージを持つことも大切

今回はかなり初歩的な内容でしたが、文系ビジネスパーソンの方にもイメージを持っていたきやすいように、できるだけわかりやすさを優先してお伝えしてきました。

「機械学習エンジニア」という職種が成り立つだけあって、この分野はかなり奥が深く、専門的な知識が必要になる領域です。アルゴリズムを構成する数式を理解することは間違いなく難しいことですが、機械学習によってビジネス上どのような成果が得られるのかのイメージを持つための知識を得ることは比較的簡単ですし、実は企画系のビジネスパーソンの方々にとってはこちらの方がより重要なのかもしれません。

その他のおすすめコンテンツ

AIのメリットやデメリットとは。課題やポイントも含めご紹介
AI導入現場から。企業が抱える検討課題の実際とは
AI開発の基礎。概要から開発の流れ、必要なものを解説

カスタムAIの導入に関する
ご相談はこちらから

お名前(必須)
御社名(必須)
部署名(必須)
役職名(任意)
メールアドレス(必須)
電話番号(任意)
件名(必須)
本文(必須)

(プライバシーポリシーはこちら