Laboro.AI

エンジニアコラム

広い技術領域をカバーする当社の機械学習エンジニアが、アカデミア発のAI&機械学習技術を紹介&解説いたします。

最新HRテックはココまできた!AI研究のいまを探る

2020.9.8
機械学習エンジニア 山下 宙元
(現在はペンシルバニア州立大学 博士課程 在籍)

概 要

採用活動に退職予測、キャリア形成に至るまで、人材領域でのデータ活用がここ数年で改めて注目されはじめ、日本でのビジネス導入・活用事例も多く見られるようになってきました。

このコラムでは、HRテックと呼ばれる領域において、どのようなAI研究事例があるのかを直近5年以内の情報系のトップカンファレンス採択論文からピックアップしながら解説し、HRテックの最新動向をチェックしていきたいと思います。

目 次

「HRテック」とは
HRテックの最新研究
① スキル推定
② 企業分析
③ 退職予測
④ キャリア予測
まとめ
参考文献

「HRテック」とは

「HRテック」は、Human Resources Technologyの略称で、文字通り“人材領域における技術およびその活用”を意味します。人材データをメインに使用して分析を行うことから、People AnalyticsやTalent Analyticsと呼ばれることもあります。

人材領域で取り組むべきタスクには、採用活動にはじまり、パフォーマンス予測や従業員のウェルビーイング向上、退職予測など、多岐に渡るトピックがあります。以下は、HRタスクの例を図にしたもので、新規採用など外部に向けたタスクである「外部人事」と、社内に対する「内部人事」、またそのタスクの実行者として「企業・人事部」「求職者・従業者」の視点からマトリックスにしています。

HRタスクの例(筆者作成)

わかりやすさを優先してシンプルなマトリックスで分けていますが、それぞれのタスクが相互に関係していることも、もちろんあります。従来は、採用活動ひとつとっても経験や勘による意思決定が当たり前に行われていましたが、昨今の急速なデータ増加や分析ツールの進化により、上記の様々な分野でデータを根拠とした活用事例が多く見られるようになってきました。

こういった多種多様な人材領域の課題をデータやテクノロジーによって解決していくこと、またはその技術そのものを「HRテック」と呼びます。

HRテックの最新研究

以降では、とくに最新の研究事例を追うことを目的に、マトリックスの4つのブロックからそれぞれひとつずつピックアップし、

① スキル推定
② 企業分析
③ 退職予測
④ キャリア予測

の4テーマに関する最新AI研究を紹介していきます。

今回はデータマイニング・WEB・AIの世界的トップカンファレンスである
 ・KDD(ACM SIGKDD International Conference on Knowledge Discovery and Data Mining)
 ・WWW(The Web Conference ※以前はInternational World Wide Web Conference)
 ・AAAI(Association for the Advancement of Artificial Intelligence)
に採択された論文のうち、HRテックに関連する研究を直近5年以内のものに絞ってピックアップしました。

① スキル推定

研究の概要

まず、2019年のKDDでLinkedInが発表した研究 “Social Skill Validation at Linkedin” (参考文献①)をご紹介します。

LinkedInのプラットフォーム上でユーザーは、キャリアやスキルセットを自己申告ベースで登録することができますが、すべてのユーザーがスキルを記入するわけでなく、また常に最新のスキルが記入されているわけでもありません。このスキルデータの不足を補うために、6億人以上いるユニークユーザー(UU)の力を借りて、他者評価によりスキルセットや専門性を収集しようというフレームワークが、”Social Skill Validation”です。

具体的には下図のようなプロモーションをユーザーに提示してスキル評価をさせます。評価のための選択肢の提示はロジスティック回帰とXGBoostにより行い、客観性を担保できるスキル評価を目指しています。

今回得られた他者評価ベースのスキルデータの有効性を検証するために、実際に転職済のユーザーのデータを使用してジョブディスクリプションに書かれているスキルセットを元に正解データを定義したところ、2016年に提案していた協調フィルタリングベースのみのスキル予測よりも10%高いAUC(Area Under the Curve:判別能力を示す指標)となることが報告されています(具体的なAUCは明示されていません)。

(出典:参考文献①

ポイント

Social Skill Validationは、スキルデータの欠如を予測だけで補うのではなく、人の手で補うというアイデアがポイントです。これはUU数が6億人以上いるLinkedInならではのフレームワークとも言えます。

さらに人がどのように他者評価するのかという傾向も垣間見ることができ、例えば上司が部下に比べて必ずしもポジティブな評価を受けているわけではないこともわかりました。これは計算社会科学の観点からも面白い結果かもしれません。

活用の可能性と難易度

今回提案されたフレームワークのように、群衆の力によるデータ拡張は自社プラットフォームに存在するUU数が膨大に多ければ応用可能だと思われます。裏を返せば、このようなデータ拡張手法はリソースもユーザー数も大きい、限られたサービスだからこそスケールすることに留意する必要があり、人手による精度向上とそこにかかるコストとのバランスを考えて導入を検討することが重要です。

② 企業分析

研究の概要

続いて、2020年のWWWでのBaiduによる研究、”Large-Scale Talent Flow Embedding for Company Competitive Analysis“(参考文献②)で、 人材の流動データ(Talent Flow)を使用して企業をembedding(埋め込み)する手法を提案しています。

提案モデル
(出典:参考文献②

具体的にはLinkedInなどの大規模レジュメデータを使用して、ユーザーが「企業u→企業vに転職した」という転職ネットワークを作成します。これはノードを企業、エッジを人材の流れ、移動人数を重みとみなすことで有向グラフで表現でき、Personalized PageRank (PPR) proximityによって競合度合いが計算されます。なおPPRとはグラフデータのノードの関連性を表す際に使用される手法で、詳細はこちら(参考文献③)をご参照ください。

提案するTalent Flow Embedding (TFE)では企業uの人材が他社へ引き込みこまれるベクトルと、企業uが他社から人材を引き込むベクトルの2次元で表現するattraction vectorsを作成することで、企業を表現します。PPR proximityの分布とランダムウォークで近似した分布のKLダイバージェンスを最小化することにより本モデルを構築します。そして有効性検証のためリンク予測により定量評価を、可視化により定性評価を行いました。

リンク予測の結果
(出典:参考文献②

ポイント

これまでの競合分析は企業側のデータを使用した古典的アプローチのものが多かった一方、この研究ではユーザー側のデータを利用してグラフベースの表現をするという点がポイントです。提案手法はリンク予測においてAUC0.9以上という高精度となっており、さらにケーススタディではGoogleの競合企業を可視化したり、ベクトルをクラスタリングすることにより、定性的にも納得の行く結果となりました。

GoogleとFacebookの競合20位(出典:参考文献②
クラスタリング結果(出典:参考文献②

活用の可能性と難易度

Graph Embeddingで会社を分散表現するという面白いアイデアですが、同じような転職パターンが複数回必要であることが前提となるため、このデータ収集がもっとも大変です。本研究においても800回以下の登場回数の企業は前処理段階で除外されており、最終的に使用されたデータ数は企業数が15,244、転職数が7,066,978となっています。

また今回ベンチマークとして使用されているnode2vec・DeepwalkでもAUCは0.8以上になっており、クイックに実装するならシンプルにnode2vecを使用するのも手かもしれません。ユーザーの会社移動データから企業の分散表現を獲得するという研究事例は、他にもLinkedInからも発表されておりこちらの研究(参考文献④)も参考になります。

③ 退職予測

研究の概要

2019年のAAAIでBaiduが発表した”Exploiting the contagious effect for employee turnover prediction“(参考文献⑤)です。従業員の退職予測をテーマとした研究は、これまでにも様々な試みがなされていますが、本研究では従業員の退職は残りの社員の退職にも影響を与えるというアイデアのもと、直近で誰が退職し、その人とはどういう関係性だったのかなどの特徴量を退職予測に使うことに挑戦しています。

退職の伝染例(青:通常、赤:離職、黄:伝染)
(出典:参考文献⑤
サンプルデータ(出典:参考文献⑤

結論として、従業員が退職すると、残った同僚の退職にも影響を与えてしまうことが明らかになっています。基礎分析では91%の社員が、同僚または上司の退職に影響を受けているという結果となり、上司が退職した場合と同僚が退職した場合では影響を及ぼす日数が異なることもわかりました。

この研究では、contagious effect heterogeneous neural network (CEHNN)という手法を提案し、退職予測を行っています。これは、従業員の基本情報、職場環境変化、同僚の離職といった3種類の特徴量を統合した異種混合なRNNです。またそれぞれの特徴量を考慮するためにアテンション機構がついています。本モデルを使用することで、Precision:0.871、Recall:0.816という高精度での退職予測を実現しています。

提案手法の概要(出典:参考文献⑤
入力特徴量リスト(出典:参考文献⑤

ポイント

これまでの研究や活用事例では、退職自体にフォーカスし、従業員のパフォーマンス・満足度や環境変化などから、どのタイミングでの退職可能性があるかを探るものは存在していましたが、従業員の離職による他社員への伝染効果を考慮した予測は行われていませんでした。本研究は、その特徴を盛り込んだ上で退職予測を行っている点がポイントです。

またケーススタディでは、個人レベルだけでなく、組織レベルでも従業員が退職に寄与する特徴を見つけているのも面白いポイントです。今回のデータセットでは、他社員の退職・環境変化・従業員プロフィール(部署・職位など)の退職への寄与率はそれぞれ61%、30%、9%でした。社員の離職がいかに組織に大きな影響を及ぼすかということがわかります。伝染モデルの研究はSNSでの情報拡散など、様々な先行研究があるため、今後も新たなモデルへの応用が期待されます。

活用の可能性と難易度

本研究では伝染効果から退職予測を行っており、従業員の退職が予期できるだけでも導入の価値はあると思います。これに加えて誰が辞めるともっとも伝染力があるか(重要度)などがわかれば退職を引き止めるべきキーパーソンが見えたり、伝染しやすいペアやグループが見えれば組織配置などにも活用できる可能性もありそうです。

また今回提案されたモデル以外にもベースラインに使用しているロジスティック回帰やGradient Boostingグラディエントブースティングでも0.8程度のF値を記録しているため、実際に導入する場合はシンプルなモデルで社内の退職予測ができることも見込まれます。

④ キャリア予測

研究の概要

2016年のAAAIでシンガポール国立大学が発表した研究”Fortune Teller: Predicting Your Career Path“(参考文献⑥)では、Twitter、Facebook、LinkedInという複数のソーシャルメディアデータを使って、将来のキャリアパスを予測するという、当時において初のタスク(著者曰く)が提案されました。

これまで紹介していた事例はどれも企業による発表で、LinkedInまたはBaiduがすでに持っているデータセットを使用していましたが、この研究ではポートフォリオサイトからデータセットを作成しています。またキャリアパスは著者らにより定義をしています。

キャリアステージ定義(出典:参考文献⑥

手法としてはまずTwitter、Facebook、Linkedinからデモグラ・LIWC・ユーザートピックの3種類の特徴量セットを作成します。LIWCは心理学的な特徴量で、ツイートなどのテキストに登場する単語と心理的な特徴量を紐づけて、ユーザーの性格や社会的特徴を表すことができます。ユーザートピックに関しては、LDA(Latent Dirichlet Allocation:潜在的ディリクレ配分法)によりTwitter、Facebook、Linkedinそれぞれのトピックを作成しています。そしてこれらの特徴量でマルチタスク学習を行うことにより著者定義のキャリアパスを予測しています。

正解データの作成(出典:参考文献⑥

ポイント

キャリアパスに関する研究はこれまで心理学・教育学・経済学・ビジネスドメインのものが主流でしたが、コンピュータサイエンス視点で予測を行い、トップカンファレンスへ投稿した、当時としては新しい研究であったのがポイントです。

またTwitterなどでソフトウェアエンジニアは技術についてよく話題にしていたり、CEOは会社経営やビジネスの話題をしているだろうという仮定のもと、複数のソーシャルメディアを使用してキャリアを予測するというアイデアは興味深いものです。

活用の可能性と難易度

本モデルをそのまま使用する場合、複数のソーシャルメディアデータを使用することが前提となりますが、実運用に向けてすべてのSNSデータを集めるのは手間がかかるため、ひとつのソーシャルメディアに絞るなどして部分的に活用するのが現実的でしょう。

また、下の表にあるように精度が6~7割程度であったことを踏まえると、人の判断も組み合わせたハイブリッドな設計にすることも検討できます。さらに、他事例で紹介したような同僚の退職やスキルセットデータなどを組み合わせて応用することで、より高い精度でのキャリア予測が期待できます。

予測結果(出典:参考文献⑥

まとめ

このコラムでは、HRテック領域においての最新のAI研究事例を追うことを目的として、直近5年以内の情報系のトップカンファレンス採択論文の中から4つの事例をご紹介しました。

採用活動、パフォーマンス予測、退職予測など多種多様なタスクが存在する人材領域データ活用ですが、昨今のデジタライゼーションや働き方の多様化・人材の流動性の向上などから、HRテックの研究はもちろんのこと、企業への導入・活用も今後ますます盛り上がりを見せていくはずです。

また、この領域での研究事例はアメリカや中国を中心として企業から発表されるものも多く、企業内にある人材データ活用が重視されていることが垣間見えます。今回紹介した論文リストは以下に掲載しておりますので、興味がある方はぜひ原著もご覧になってみてください。

参考文献

Social Skill Validation at Linkedin
Large-Scale Talent Flow Embedding for Company Competitive Analysis
Scaling Personalized Web Search
How LinkedIn Economic Graph Bonds Information and Product: Applications in LinkedIn Salary
Exploiting the contagious effect for employee turnover prediction
Fortune Teller: Predicting Your Career Path