Laboro.AIオリジナル日本語版BERTモデルを公開
2020.4.17
株式会社Laboro.AI 代表取締役CTO 藤原 弘将
機械学習エンジニア 趙 心怡
概 要
Laboro.AIは、近年AI自然言語処理の分野で注目を集めるアルゴリズムBERT(Bidirectional Encoder Representations from Transformers)を独自に事前学習させた日本語版モデルを開発し、オープンソースとして公開いたしました。こちらでは、その開発背景やモデルの詳細についてご紹介します。
なお、さらに詳しい情報やモデルのダウンロードをご希望の方は、こちらのGitHubをご確認ください。
また、2020年12月18日、当モデルに蒸留を施した『Laboro DistilBERT』を公開いたしました。Laboro DistilBERTについて詳しくは、こちらのコラムでご覧いただけます。
目 次
・AI自然言語処理とBERT
・Laboro BERTについて
・Laboro BERTの精度評価
・タスク(A) 文章分類
・タスク(B) 質問回答
・精度評価
・Laboro BERTの活用可能性
・Laboro BERTのご利用について
・ライセンス
・ご利用にあたっての注意事項
・ダウンロード
・公開・更新情報
AI自然言語処理とBERT
AI(機械学習)の技術領域のひとつである自然言語処理は、人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野です。手書き文字の読み取りを行うOCRやテキストでの会話を実現するチャットボットのほか、近年普及しているスマートスピーカーにもこの自然言語処理技術が活用されており、AI活用の主要領域のひとつと言えます。
2018年10月にGoogleが発表した自然言語処理モデルBERT(Bidirectional Encoder Representations from Transformers)は、この自然言語処理の分野に大きなブレイクスルーをもたらしたと言われる自然言語処理アルゴリズムです。それまでのアルゴリズムと比較してBERTは、
・文章の文脈を理解することに長けている
・文章分類や感情分析など様々なタスクに応用できる(ファインチューニング)
・インターネット上にある大量のデータから事前学習でき、データ不足を課題としにくい
などの画期的な特徴がある上、実際に様々な検証で高い精度を示すアルゴリズムであることが証明されています。
※BERTについては、学術研究論文 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ”などで、詳細を確認いただけます。
Laboro BERTについて
上記のような優れた特徴をもつ自然言語処理技術であるBERTを、日本の多様なビジネスシーンでも活用いただくため、今回Laboro.AIでは、主に英文への対応が中心であったBERTを日本語の文章にも対応できるよう、またより精度の高い処理を実現できるよう研究開発を行い、この度、独自のBERT事前学習モデル「Laboro BERT」を開発し、オープンソースとして広く公開することとしました。
Laboro BERTは、インターネット上で公開されているニュースサイトやブログなど、フォーマルなものからカジュアルなサイトまで、計4,307のWebサイト、ページ数にして2,605,280ページに掲載されているテキスト情報を収集し、事前学習させたものです。
Googleが公開したオリジナルの英語版BERTが13GB分の英語文献データセットで学習させているのに対して、Laboro BERTもほぼ同量の12GBに相当する言語情報データで学習を行なっており、当社で実施した次の検証でも高い精度でのタスク処理が可能であることが確認できました。
Laboro BERTの精度評価
Laboro BERTの性能を評価するため、今回、以下2つのタスクで検証を行いました。
タスク(A) 文章分類
NHN Japan株式会社が収集し、クリエイティブ・コモンズライセンスのもと公開しているlivedoorニュースのコーパス※を用い、特定のニュース記事を9つのカテゴリー(トピックニュース、Sports Watch、ITライフハック、家電チャンネル、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy)に正しく分類できるかを検証・評価しました。
※livedoorニュースコーパスについてはこちらをご覧ください。
※livedoorはNHNJapan株式会社の登録商標です。
タスク(B) 質問回答
与えられた文章の中から質問に対する答えを抽出・回答するタスクで、正しい回答ができるかの精度を評価しました。今回は「運転ドメインQAデータセット」※という、インターネット上で公開されている運転に関するブログ記事を元に構成されたデータセットのうち、文章読解のためのQ&Aデータセットである「RC-QAデータセット」というものを引用しています。例えば、
文章 :私の車の前をバイクにまたがった警察官が走っていた。
質問 :警察官は何に乗っていた?
答え :バイク
といった一群がセットになっています。
※「運転ドメインQAデータセット」は、京都大学大学院 情報学研究科 黒橋禎夫教授・河原大輔准教授・村脇有吾助教 研究室が公開するものです。詳しくはこちらをご覧ください。
精度評価
上記の2つのタスクそれぞれについて、以下の3つのモデルでその精度を比較しました。
①公開されている日本語版Wikipediaのコーパスを事前学習させたモデル※
②Laboro BERT Baseモデル (12層、ハイパーパラメーター数110M)
③Laboro BERT Largeモデル(24層、ハイパーパラメーター数340M)
複数回の検証結果を平均した比較表がこちらの次表です。
コーパス サイズ (corpus size) | タスク(A) 文章分類の 正解率 (accuracy) | タスク(B) 質問回答の 一致率 (exact match) | |
①日本語版Wikipediaモデル | 2.9GB | 97.2% | 76.3% |
②Laboro BERT Baseモデル (12層) | 12GB | 97.7% | 75.5% |
③Laboro BERT Large モデル (24層) | 12GB | 98.1% | 77.3% |
タスク(A)文章分類・タスク(B)質問回答ともに、いずれのモデルも僅差で高い精度を示している中、③ Laboro BERT Largeモデルがとくに高い結果を示していることを確認しました。
※日本語版Wikipediaのコーパスを事前学習させたモデルとしては、「BERT with SentencePiece for Japanese text」(Yohei Kikuta氏)で公開されているものを使用。
Laboro BERTの活用可能性
Laboro BERTは、現在もAI活用が積極的に行われている次のようなシーンでのタスク処理の精度をより高めることが期待されます。
・社内に大量に蓄積された文書の整理や分類
・専門的なキーワードやそれに類似するワードを含む文書、メールなどテキストデータの収集、分類、評価
・チャットボットなど、テキスト情報をベースにしたQ&Aシステムへの応用
・スマートスピーカー等、声による入力・出力など、音声技術への応用
Laboro BERTのご利用について
ライセンス
Laboro BERTは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0(Attribution-NonCommercial 4.0 International)の下、非商用目的に限り無料で公開しています。下記のリンクよりダウンロードいただけます。
商用目的での利用をご希望の方は、こちらのお問い合わせフォームよりご連絡ください。
ご利用にあたっての注意事項
当モデルは、機械学習技術を用いている性質上、事実とは無関係な単語列を出力したり、公序良俗の観点で不適切な単語列を出力する場合があります。モデルの学習は統計的機械学習を用いて行われており、その出力は株式会社Laboro.AIの意思決定・判断を示すものではありません。当モデルの使用に伴って生じた損失や損害等、いかなる場合においても弊社では一切責任を負いません。以上の点について十分ご理解・ご注意の上、自己責任の下でご利用をお願いいたします。
ダウンロード
こちらのGitHubよりダウンロードいただけます。
公開・更新情報
2020年4月17日 Laboro BERTを公開しました。
2020年4月17日 プレスリリースいたしました。
2020年12月18日 Laboro DistilBERTを公開しました。