Laboro.AI

Laboro.AIコラム

文系ビジネスマンのための機械学習。「教師あり」「教師なし」をおさらい

2020.12.17

概 要

総務省の情報通信白書 令和2年版によると、国内企業のAI導入率は14%を超え、ビジネスでのAI活用は、DXブームの波も受けながら、ますます重要な取り組み事項になってきています。

企業におけるAI導入シーンでは、AI開発を得意とするAIベンダーと協力してプロジェクトを推進することが主流になっており、AIに関する知識が最低限でもあればベンダーとのスムーズなやり取りが可能になります。

とはいえ数字、統計をベースとするこの領域で、専門的な技術に理解を深めることはそう簡単ではありません。そこで今回は、かなり初歩的な内容かもしれませんが、文系ビジネスマンの方にも理解していただきやすいよう、わかりやすさを重視しながら、機械学習の中でもよく耳にする教師あり学習、教師なし学習などの概要について改めて振り返っていきたいと思います。

出典:総務省|令和2年版 情報通信白書|令和2年 情報通信白書のポイント

目 次

機械学習の分類
教師あり学習
 ・教師あり学習のプロセス
教師なし学習
 ・教師なし学習の代表的な活用法
半教師あり学習
 ・半教師あり学習の代表的な活用法
強化学習
まずは機械学習のイメージを持つことも大切

機械学習の分類

そもそも「AI」は定義も曖昧な、非常に広い概念です。近年のAIの劇的な進歩をもたらしたのは、よく耳にする「ディープラーニング」を含む「機械学習」という技術領域の進化が背景にあると言われます。

機械学習とは、例えば、社内に長年蓄積された文書データや数値データなど、こうした大量のデータをコンピュータに学習させ、その中から特定のパターンや分類ルールなどを導き出す技術の一つです。

とはいえデータが多ければいいという訳ではなく、機械学習で用いるデータは、質も重要です。例えば、営業担当者ごとに好き勝手&属人的に書かれた営業日報の文書データが大量にあったとしても、そこに何の規則性や一定性もなければ、営業状況の傾向が見出せないのはなんとなく想像がつきやすいかと思います。

いくらAIだとは言っても、何のルールにも基づかずに作成されたデータを学習させても、やはり傾向や特徴を掴むことはなかなか簡単ではありません。一定の基準に従った正確かつ意味のあるデータを用いることが、分類や予測などの精度を高めるためには非常に重要なポイントになります。

そして、機械学習という技術は、文書の分類をしたいのか、社内システムの制御をしたいのかなどの目的に応じて、コンピュータに対するデータの学習のさせ方が変わってきます。その整理するためによく聞かれるのが、「教師あり学習」「教師なし学習」「半教師あり学習」「強化学習」の4つの分類です。

教師あり学習

教師あり学習は、機械学習のうち、データに正解のラベルを付与した上でコンピュータに学習させる手法を指します。コンピュータは大量の正解データを学習することでパターンやルールを見つけ出し、次に入力されたデータを学習したパターンやルールに則って分類できるようになっていきます。

例えば、ある農家で果物の分類を画像から行いたいと思った場合には、リンゴの画像には「リンゴ」のラベルを、ブドウの画像には「ブドウ」のラベルを……というように正解のラベルを付けていきます。そして、リンゴの特徴は何か、ブドウの特徴はどのポイントかというように学習させていきます。教師が生徒を指導する際に必ず正解を教える様子に似ていることから、教師あり学習と呼ばれているそうです。

教師あり学習のプロセス

正解のラベルの付いた大量のデータを学習させる教師あり学習では、大きく次の2つのプロセスでタスクを行います。

プロセス1:学習

まずは大量かつ良質なデータを用意し、コンピュータに学習させます。教師あり学習ではデータに正解のラベルうぃ付けることが前提となるので、データの数が増えるにつれ、そのルールやパターンをコンピュータ自身が学習しやくなります。例えば、リンゴの画像を色から判定する場合、「赤色」には幅がありますが、「赤身○%から○%までのものを赤リンゴとする」といったパターンをコンピュータに学習させることになります。

プロセス2:予測

次に、大量のデータを学習してパフォーマンスを上げたコンピュータに、正解のないデータを入力、これまで学習したパターンやルールと照らし合わせてデータを認識し、結果を予測します。上の例と同様にリンゴ画像の識別であれば、その色を読み取り、これまでのパターンと照らし合わせ、赤リンゴに該当するのか青リンゴに該当するのかを判断するといった具合です。

教師なし学習

教師あり学習に対し、与えるデータに正解ラベルを付与せずに学習させる手法を教師なし学習と言います。教師なし学習と教師あり学習は、学習の難易度や出力される精度が違うというわけではなく、達成したいタスクによって使い分けることになります。

教師なし学習は正解が与えられていない一方で、大量のデータに含まれる特定のパターンや類似性を学習し、それらの分類やルールの抽出を得意とします。例えば、顧客データの分類に用いるといった利用シーンが想定されます。正解ラベルのない顧客データを学習させることで、商品がどの層に売れているのか、どの時間帯に売れているのかといった分類をさせるような活用も見られます。

教師なし学習の代表的な活用法

教師なし学習の代表的な活用としては、「クラスタリング」と「アソシエーション分析」があります。

クラスタリングは、その名の通り、データを分析し、そこにあるパターンを見つけ出し、グループ分けのルールを導き出す手法です。代表的な応用例には、上記にもご紹介した顧客データの分類が挙げられますが、性年代など従来のデモグラフィック情報での市場のセグメンテーションから、より一歩進んだ市場分析に用いるといったことが期待できます。

アソシエーション分析は、大量のデータを分析した上で、データ間の関連性を見つけ出す手法です。商品Aを購入する人は商品Bも一緒に購入する傾向があるといった関連性を見つけ出すためにも用いられるため、クロスセル戦略の立案のために活用されることもあります。

半教師あり学習

半教師あり学習は、教師あり学習と教師なし学習の中間に位置する手法です。手元にあるデータ全てにラベルを付与できない場合に用いられ、一部のデータはラベル付き、残りはラベルなしのデータをコンピュータに学習させるというものです。

と言うのも、データにラベルを付けるには、アノテーション(ラベル付け)の専門業者に協力をお願いすることも多く、大量のデータを用意するのが困難なケースも少なくありません。そういった場合には一部のみラベルを付与し、パターンや類似性を学習させた上で、残りはラベルなしのデータで学習を進めてくという手法が取られます。

半教師あり学習の代表的な活用法

一部のみラベルありのデータを用い、残りをラベルなしのデータで学習させる半教師あり学習は、私たち人がトレーニングを行う様子と似ているとも言われます。スポーツのトレーニングでは、最初にコーチから適切な動作を習いますが、その後は自身で反復練習を行うなどして精度を上げていくことができます。半教師あり学習も同じように、指標となる一部のラベルを元にラベルなしのデータを学習していきます。

半教師あり学習の代表的な活用として、「ブートストラップ法」と「グラフベースアルゴリズム」があります。

ブートストラップ法は、ラベルありデータをまず分類し、その分類規則に基づいてラベルなしデータを「これはこのラベルだろう」と予測して分類していく方法です。 一方のグラフベースアルゴリズムは、データ分布をもとにしてグループ分けを行います。一部のラベルありデータをもとに、「これと近い数値は同じラベルだろう」という予測をしながら近い数値のデータごとにグループ分けを行っていく手法です。

強化学習

強化学習は、教師あり、教師なし、半教師ありの3つと並べて語られる多い学習手法ですが、かなり気質が異なる学習手法です。強化学習は、誤解を恐れず簡単にお伝えすると、コンピュータ自らが試行錯誤をしながら、最適な答えを探す学習手法だと言えます。

具体的な技術の説明は別の機会にしたいと思いますが、イメージとしてお伝えすると、強化学習では「報酬」という考え方が用いられます。例えばエアコンの自動制御を考えた場合、AIが室内の環境を認識し、現在の状態からどれくらい温度を上げ・下げすればよいかを考え、温度操作の方策を取り、適温と評価された場合に報酬が与えられます。適温を維持すればするほど報酬が与えられ続けることになり、AIはより高い報酬を目指して自らの行動を強化させていきます。このように報酬を使って、コンピュータのプロセスを改善・強化させるような学習手法が強化学習です。

かなり有能に見える手法ですが、試行錯誤に少なくとも数千〜数万回ものシミュレーションが必要になることもあって、実際のビジネスシーンで応用を考えた場合には、教師あり学習、教師なし学習、半教師あり学習と比べても、導入の難易度が高い手法だと言われています。

まずは機械学習のイメージを持つことも大切

今回はかなり初歩的な内容でしたが、文系ビジネスマンの方にもイメージを持っていたきやすいように、できるだけわかりやすさを優先してお伝えしてきました。

「機械学習エンジニア」という職種が成り立つだけあって、この分野はかなり奥が深く、専門的な知識が必要になる領域です。アルゴリズムを構成する数式を理解することは間違いなく難しいことですが、機械学習によってビジネス上どのような成果が得られるのかのイメージを持つための知識を得ることは比較的簡単ですし、実は企画系のビジネスマンの方々にとってはこちらの方がより重要なのかもしれません。

その他のおすすめコンテンツ

AIのメリットやデメリットとは。課題やポイントも含めご紹介
AI導入現場から。企業が抱える検討課題の実際とは

カスタムAIの導入に関する
ご相談はこちらから

お名前(必須)
御社名(必須)
メールアドレス(必須)
電話番号(任意)
件名(必須)
本文(必須)