エンジニアコラム

広い技術領域をカバーする当社の機械学習エンジニアが、
アカデミア発のAI＆機械学習技術を
紹介＆解説いたします。

オリジナル日本語版BERTモデルをさらに軽量・高速化
『 Laboro DistilBERT 』を公開

2020.12.18
株式会社Laboro.AI　代表取締役CTO　藤原弘将
機械学習エンジニア　趙心怡

概　要

Laboro.AIは、本年4月公開の自然言語処理アルゴリズムBERTを用いて開発した当社オリジナル日本語版BERTモデルに蒸留を施し、より一層の軽量・高速化を図った言語モデル『Laboro DistilBERT』を開発し、非商用途にオープンソースとして公開いたしました。

こちらでは、その開発背景やモデルの詳細についてご紹介します。なお、さらに詳しい情報やモデルのダウンロードをご希望の方は、こちらのGitHubをご確認ください。

また、本年4月公開の『Laboro BERT』について詳細は、こちらのコラムからご確認いただけます。

目　次

・背景 – BERTの課題
・開発内容 – Laboro DistilBERTについて
・今後の展開 – Laboro DistilBERTの活用可能性
・Laboro DistilBERTのご利用について
　・ライセンス
　・ご利用にあたっての注意事項
　・ダウンロード

背景 – BERTの課題

2018年10月にGoogleが発表した自然言語処理モデルBERT（Bidirectional Encoder Representations from Transformers）は、自然言語処理に大きなブレイクスルーをもたらしたと言われるアルゴリズムですが、一方で、そのベースモデルには1億1千万にも及ぶパラメーターが含まれるなど、その実装のためには大規模な情報処理環境が必要となります。

そこで、大規模なモデルを教師モデルとして学習させパラメーター数を圧縮する蒸留（distillation）という手法を施したDistilBERTが、2019年10月に公開されています。元論文では、DistilBERTはBERTの精度を97%の精度で保ちながらも60%の高速化を実現したことが報告されています。

※DistilBERTについては詳しくは、元論文 ”DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter” でご確認いただけます。

開発内容 – Laboro DistilBERTについて

当社では、主に英文への対応が中心であったBERTを国内でも活用いただきやすくすることを目指し、日本語文章に対応した独自のBERT事前学習モデル『Laboro BERT』を、本年4月にオープンソースとして公開しています。そして今般、このLaboro BERTに蒸留を行った『Laboro DistilBERT』を開発し、同じく非商用途に公開することといたしました。Laboro DistilBERTは、新たに取得した13GBの日本語コーパスによって事前学習させたLaboro BERTを教師モデルにした蒸留モデルです。

Laboro DistilBERTの性能評価のため、文章分類と質問回答の2つのタスクで評価を実施しました。この際、比較対象として教師モデルであるLaboro BERTに加え、日本語の蒸留BERTモデルとして知られる株式会社バンダイナムコ研究所が公開するモデル（以下、Bandai Namco DistilBERT）の計３モデルで比較を行っています。その結果、まず文章分類タスクにおいては、Laboro DistilBERTがLaboro BERTの精度（正解率：accuracy）の98%を保ちつつ速度（推論時間：inference time）を58%削減したことを確認いたしました。また質問回答タスクでは、90%の精度維持と47%の速度削減を確認いたしました。さらにBandai Namco DistilBERTに対しては、いずれのタスクにおいても精度・速度ともに上回る結果を確認いたしました。

今後の展開 – Laboro DistilBERTの活用可能性

Laboro DistilBERTは、高い精度と早いレスポンスの双方が求められる、以下のようなシーンでの活用が期待されます。

・スマートフォンをはじめとするエッジ端末上での自然言語処理
・スピーディーな反応が求められる双方向コミュニケーション
・低コスト条件とリアルタイム性が重視される言語モデルへの活用

Laboro DistilBERTのご利用について

ライセンス

Laboro DistilBERTは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0（Attribution-NonCommercial 4.0 International）の下、非商用目的に限り無料で公開しています。下記のリンクよりダウンロードいただけます。

商用目的での利用をご希望の方は、こちらのお問い合わせフォームよりご連絡ください。

ご利用にあたっての注意事項

当モデルは、機械学習技術を用いている性質上、事実とは無関係な単語列を出力したり、公序良俗の観点で不適切な単語列を出力する場合があります。モデルの学習は統計的機械学習を用いて行われており、その出力は株式会社Laboro.AIの意思決定・判断を示すものではありません。当モデルの使用に伴って生じた損失や損害等、いかなる場合においても弊社では一切責任を負いません。以上の点について十分ご理解・ご注意の上、自己責任の下でご利用をお願いいたします。