ソリューション
デザイナコラム

AI知識とビジネス視点を合わせ持つ
当社のソリューションデザイナ（SD）が、
AI開発・導入・活用のポイントを解説いたします。

AIで「やりたいこと」とデータは、両輪で議論する

2020.8.19
株式会社Laboro.AI　代表取締役CTO　藤原弘将

概　要

AIを業務導入する際には、その業務の目的をしっかりと把握し、目的に適したデータを用いることが重要です。では、目的とズレがあるデータを使用してしまうとどのようなことが起きてしまうのでしょうか。また、データがない場合にはどう対応すれば良いのでしょうか。実例を交えながら考えていきます。

（＊本コラムは、日刊工業新聞の連載『AI・ロボット転機予報part2』へ寄稿した内容を再編集したものです。）

目　次

・AIは差別的？
・適切な訓練データの重要性
・課題設定の見直しも

AIは差別的？

「AIは差別的だ」というニュースが何度か世間を賑わせたことがあります。その一つの例が、2016年にマイクロソフトが公開したAIチャットボット『Tay』です。Tayは、Twitterなどを通じて一般ユーザーと会話をし、さらにその会話の履歴から学習して成長するという試みでした。ですが、一部ユーザーの差別的な発言も学習してしまい、Tay自身も同じような発言を繰り返すことになってしまいました。

もう一つの例は、2018年、米国アマゾンが開発したAIによる履歴書審査ツールです。これは、過去の応募者のデータを学習して、エンジニアへの新規応募者の履歴書をランク付けするものでした。しかし、エンジニア職の過去の応募の多くが男性だったため、女性の応募は評価を落とされるという問題が発生し、このAIツールの正式導入は見送られることになりました。

適切な訓練データの重要性

どちらの例も、AIが本来満たすべき要件（差別的な発言をしないなど）を、学習に使用した訓練データで考慮していなかった事ことに起因して起きたものです。

AIの構成要素となるディープラーニングは、ある入力を別の出力に変換するための関数を学習する手法です。先の例で言えば、入力した履歴書の項目を応募者の格付けのためのスコアに変換して出力するということです。この変換の仕方は、集められた訓練データを真似するように学習されます。つまり、ディープラーニングは、本質的に学習するデータの真似をするもので、学習データ自体に何らしかのバイアスが混ざっていると、当然それをそのまま表現してしまいます。

企業の業務をAIで代替することを考える場合、その業務の目的をきちんと把握し、やりたいことに合致したデータを訓練データとして用いる事が重要です。「やりたいこと」の目的とデータは両輪で議論することが必要で、適切な学習データがないからといって目的とズレのあるデータを無理矢理使ってしまうと、たとえ入出力の形式が正しくても、本来の目的は達成できなくなってしまいます。

課題設定の見直しも

実例を紹介しましょう。ある企業では、商品の需要予測をそれまで人手で行なっていましたが、予測品質にバラツキがあり、これを高い水準で統一したいという目的でAIの導入を検討しました。ですが、需要予測で難しさを伴うのが、売上データは手に入る一方、例えば欠品時に本来どれだけ売れていたかも含めた需要そのもののデータは現実として手に入りにくいという点です。そこでこの企業では、それまでの人手による予測結果を訓練データとして使おうとしました。もちろん、これは形式的な入出力として問題の無いデータです。しかし、当初の人手による予測の不確実性を減らそうという出発点に立ち返ると、そもそも誤りを含んでいる人手の予測結果を劣化コピーしても当然目的は達成できません。結果としてこのプロジェクトは、予想より精度が出ないという理由で中止を余儀なくされました。

目的に合致したデータが無い場合には、本来であれば、データの作り方をきちんと見直す必要があります。それも難しい場合には、この例で言えば、需要予測というそもそもの課題設定自体を見直すことが必要になるでしょう。

コラム執筆者

代表取締役CTO　藤原弘将

京都大学大学院修了博士（情報学）。2007年、産業技術総合研究所にパーマネント型の研究員として入所。機械学習を用いた音声/音楽の自動理解の研究に従事。開発した特許技術を様々な企業にライセンス提供し、ライセンス先企業の技術顧問も務める。2012年、ボストンコンサルティンググループに入社。ビッグデータ活用領域を中心に多数業界・テーマのプロジェクトに従事。AI系のスタートアップ企業を経て、2016年に株式会社Laboro.AIを創業。代表取締役CTOとして技術開発をリード。