AI精度に不可欠な評価基準の検討
2020.11.26
株式会社Laboro.AI 代表取締役CTO 藤原 弘将
概 要
AIは新しい技術を使って開発すれば良いというものではなく、精度・性能を正しく評価することが当然ながら必要になります。この際、不適切な評価基準でAIの性能を測ってしまうと、やはり意味のあるツールとして使えることはありません。異常検知を例に、「精度9割」という評価基準について考えてみましょう。
(*本コラムは、日刊工業新聞の連載『AI・ロボット転機予報part2』へ寄稿した内容を再編集したものです。)
目 次
・PoCを軽んじてしまう現状
・「9割」とは一体どのような状態なのか?
・達成後のイメージを共有する
PoCを軽んじてしまう現状
AIの導入プロジェクトでは、本格的なシステム開発の前にPoC(概念実証)と呼ばれるフェーズがあり、この段階でAIが本当に役に立つのかを検証することが通例です。PoCでの目標の決め方が非常に重要であることは言うまでもありませんが、意外にも軽く扱われることが多いのが実際です。
例として製品の写真から不良品を検知する問題を考えてみましょう。ある工場では、1日に1万個生産する製品のうち、不良品が10個程度発生するとします。精度目標を決めようとして、AIベンダーである私たちが工場の担当者の方に対して「どの程度の精度が出ると実用化できそうでしょうか」と問いかけると、大抵の場合「8〜9割」という答えが返ってきます。
おそらく多くの人は、「何かがそれなりにできている」という感覚から、こうした数字を連想するのだと思います。ですが、ここに大きな落とし穴があります。この9割を達成するということは、一体どのような状態で、業務上どのような効果が見込めるでしょうか。この点を考えずに曖昧に「9割」とだけ決めてしまうと、後悔することになりかねません。
「9割」とは一体どのような状態なのか?
まず、9割の定義として「1万個のうち、何個を正しく判定したか」という基準が思いつきます。ですが、不良品が10個しかないこのケースでは、とりあえず全てを良品だと判定すれば、9,990個は正解することになり、正解率は99.9%になります。確かに目標は達成していますが、不良品の存在を無視したとも言えるこのAIが何の役にも立たないことは言うまでもありません。
すると担当者から「不良品を全部漏らしては意味がない。不良品10個のうち9個は検出して欲しいんだよ」という注文が出てきます。つまり、良品のうち9割を正しく判定し、かつ不良品のうち9割を正しく判定するということです。前者を特異度、後者を感度と呼びますが、この特異度と感度が両方同時に9割を達成するというのはどういう状態でしょうか。この裏を返せば、9,990個の良品のうち、1割の999個を誤って不良品と判定することになります。
そもそも不良品は10個しかないので、不良品と判定したものの中で実際に不良品である製品の割合は約1%しかありません(この割合を適合率と呼びます)。要は、AIが判定した不良品のうち、約99%は実際には良品ということになります。このケースでも、AIはおそらく使い物になりません。
こうなると次は、「特異度ではなく、適合率9割を目指しましょう」という話になります。ですが、これは特異度としては良品のうち99.9%を正しく良品と判断できている状態で、一般論として相当高い精度が要求されることになります。
達成後のイメージを共有する
仮に今回の問題が、技術的に99.99%の精度が出せるものではなかったとしても、こうした検討が事前にできていれば、そもそも解くべき問題設定を変えることも選択としてできたはずです。しかし、PoCフェーズに入った後にその評価をする中で上記のような問題が明らかになるケースや、さらにひどい場合には、業務に組み込んだ後に発覚するケースも想定され、その場合には大きな損害を被ることになりかねません。
もちろん、問題の種類が異なれば、異なる評価基準が存在し、それぞれに個別の落とし穴があります。PoCに入る前の時点で、どのような計算で表される評価基準が適切かを関係者間で合意すること、そして目標が達成されたときに業務がどう変わっているかをイメージすることが重要です。
コラム執筆者
代表取締役CTO 藤原 弘将
京都大学大学院修了 博士(情報学)。2007年、産業技術総合研究所にパーマネント型の研究員として入所。機械学習を用いた音声/音楽の自動理解の研究に従事。開発した特許技術を様々な企業にライセンス提供し、ライセンス先企業の技術顧問も務める。2012年、ボストンコンサルティンググループに入社。ビッグデータ活用領域を中心に多数業界・テーマのプロジェクトに従事。AI系のスタートアップ企業を経て、2016年に株式会社Laboro.AIを創業。代表取締役CTOとして技術開発をリード。
その他の執筆コラム
・AIで「やりたいこと」とデータは、両輪で議論する
・“AI”のギャップが、ビジネスへの導入を妨げる
・AIは不完全。本当に必要な「AI人材」の役割とは
・ディープラーニングによる一般物体認識とビジネス応用<上>画像分類
・ディープラーニングによる一般物体認識とビジネス応用<下>物体検出