エンジニアコラム

広い技術領域をカバーする当社の機械学習エンジニアが、
アカデミア発のAI＆機械学習技術を
紹介＆解説いたします。

データ量を約３倍に増量しアップデート
日本語音声コーパス「LaboroTVSpeech2」を提供開始

2024年４月30日

概　要

Laboro.AIは、2020年にTV録画から長時間音声と字幕テキストを抽出して音声コーパスを自動構築する独自システムを用いた音声データから構築した日本語音声コーパス「LaboroTVSpeech（ラボロティービースピーチ）」を開発し、学術研究用に無償公開しておりましたが、この度、データ量を約３倍に増量し、より高品質な音声データとしてアップデートした「LaboroTVSpeech2」を開発し、提供を開始いたしました。

目　次

・LaboroTVSpeech2開発背景
・LaboroTVSpeech2について
・LaboroTVSpeech2比較実験について
・LaboroTVSpeech2の利用について

LaboroTVSpeech2開発背景

昨今、AIと機械学習の分野では、大規模なデータセットの存在が重要になってきています。例えば、生成AIで注目を集める言語モデルGPTでは、GPT-1からGPT-4への進化においてトレーニングデータサイズの劇的な増加が行われており、現代に求められるAIモデルを開発するためには、大量かつ高品質なデータがAIの精度に大きなプラス効果をもたらすことを示しました。

当社でも、2020年に提供を開始した旧版LaboroTVSpeechについて、より高品質な音声データを提供したいという思いから、リリース後もテレビ番組データの収集を継続し、今般の開発にいたりました。

LaboroTVSpeech2について

LaboroTVSpeech2は、旧版LaboroTVSpeechと同様にB-CASカードによるアクセス制限がないワンセグ放送を利用し、2022年12月〜2023年11月放送、12ジャンルの39,248のTV番組、計6,620時間のデータから構成されております。

旧版LaboroTVSpeechが12ジャンルの9,142のTV番組、計2,049時間のデータで構成されていることと比べると、そのデータ量は約3倍と大幅に増加しております。

なお、LaboroTVSpeech2は、旧版と同様に当社が独自開発したシステムにより構築しています。具体的には、テレビ番組の長時間の音声データと、その不完全な書き起こしである字幕データの時間的な対応関係を抽出する手法である準教師付きデコーディング（lightly-supervised decoding）と呼ばれる手法をベースとしています。これにより、本来であればテレビ番組のデータから音声と字幕がセットになって抽出されるべきところ、先のような何らかの問題で対応した情報として取得できなかった場合に、準教師付デコーディングによる音声と字幕の対応関係の抽出を繰り返し行うことで、一度対応が取れなかった区間からも可能な限りデータ抽出を行う仕組みを採用しています。

LaboroTVSpeech2比較実験について

LaboroTVSpeech2を用いたモデルの音声認識の性能を確認するため、日本語のTEDxを用いて構築した独自の音声認識システム評価用データセット（※1）を用意した上で、旧版LaboroTVSpeechとの比較実験を行いました。音声認識のツールキットとしてはEnd-to-End方式を採用するESPnetを用いました。

その結果、文字誤認識率（CER）が旧版の13.0％に対して11.4%となり、1.6%の改善が見られたことを確認いたしました（※２）。

（※1）Youtube上のプレイリスト「TEDx talks in Jpanaese」に含まれる動画から音声と字幕データを取得したもの。
（※2）上記の結果は、実環境での音声認識システムの性能とは異なる場合があります。

LaboroTVSpeech2の利用について

LaboroTVSpeech2に含まれる音声及びテキストデータの権利は、元のテレビ放送の著作権者に帰属していますが、著作権法30条の４に基づき、情報解析等の用途のために、大学等の学術研究機関に対して無償で公開いたします。ただし、元のテレビ番組の音声を再構成し鑑賞する事を防ぐために、発話単位でランダムに並び替えられており、かつ番組名や放送局等の付加情報は含まれておりません。

ご利用にあたっては、LaboroTVSpeech2の利用相談の旨を明記の上、当社HP内お問い合わせフォームよりお問い合わせください。また、営利企業における研究開発用途や商用目的での利用をご希望の場合も、同じく当社HP内お問い合わせフォームからご相談ください。なお、お問い合わせをいただいてから配布まで最短3週間前後のお時間を頂戴しておりますことを何卒ご了承ください。