Laboro

エンジニアコラム

広い技術領域をカバーする当社の機械学習エンジニアが、アカデミア発のAI&機械学習技術を紹介&解説いたします。

日本語話者の音声を収録した話者認識用データセット
「Laboro-ASV」を無償公開

2024.1.30
株式会社Laboro.AI 代表取締役COO兼CTO 藤原弘将
機械学習エンジニア 趙 心怡

概 要

Laboro.AIは、話者認識技術の発展を目的に、日本語話者の音声を収録した音声データセット「Laboro-ASV」の無償提供を開始しました。

Laboro-ASVは、B-CASカードによるアクセス制限がないワンセグ放送を利用し、2022年2〜7月にかけて放送されたテレビ番組の録画データから構成された音声コーパスで、142人の話者による約95時間分の音声が収録されています。

なお、Laboro-ASVについては、2023年9月27日に開催された、日本音響学会 第150回(2023年秋季)研究発表会にて報告いたしました。予稿はこちらからご覧いただけます。

目 次

背景
Laboro-ASVの特徴
Laboro-ASV比較実験について
Laboro-ASVの利用について

背景

話者認識は、幅広い応用可能性を有している技術分野であり、例えば音声アシスタントやセキュリティーシステムなどさまざまな用途で使われております。中でも話者認識の精度を向上させるカギは、対象となる話者が使用する言語向けに作成された高品質な音声データセットが利用できることにあります。ですが、外国言語の著名な音声データセットとしては、VoxCeleb(※1)やCN-Celeb(※2)などがある一方、日本語の話者認識の分野では、以下の条件を満たす有用なデータセットがありませんでした。
(1)日本語話者に限定、または重きを置いている
(2)研究用途のみならず、商用利用も無償
(3)”in the wild”のデータを収集し、それによってスタジオ収録の音声よりも実環境に近い音声データで構成されている

日本語を主たる言語としない話者による音声データセットでは、話者認識の精度を著しく低下させる可能性もあり、特定言語に特化したデータセットの必要性を背景に、当社では日本語話者に特化した音声データセットを作成しました。

(※1)2017年に発表された英語話者向けデータセット
(※2)2019年に発表された中国語話者向けデータセット

Laboro-ASVの特徴

当社では「話者ごとの発話数」が話者認識のためのデータセットの有効性を決定付ける重要な要素であると考え、Laboro-ASVをデータセットとして充実させることを目的に、出演頻度に基づいて話者を選択し、話者ごとに十分な発話量を確保しています。話者1人当たりの発話数は、同種のデータセットで一般的に100~200であるところ、それをはるかに上回る450超の発話数で構成されています。

Laboro-ASV比較実験について

Laboro-ASVの性能を評価するため、日本語話者照合タスクの観点から、JTubeSpeech(※3)データセットのトライアルセットをテストセットとして使用し、Equal Error Rate(EER)を評価指標として評価しました。なお、他のモデルとの公平な比較を保証するために、すべての実験は同じ設定で実施しています。また、speaker embeddingの抽出と話者照合にはX-vector/PLDAを使用しています。

Laboro-ASVの性能を日本語話者照合タスクの観点から評価した結果

EERは低い方が良いとされており、比較実験の結果、VoxCeleb1とLaboro-ASVを組み合わせたデータセットで訓練されたモデルが最も良い性能を発揮できていることが上図から分かります。Laboro-ASVは、データ量の観点においては他の大規模データセットに比べて劣るものの、他のデータセットと併用することで日本語話者照合タスクの精度を向上させるために有効なデータセットであることを確認しました。

(※3)音声認識と話者照合のために YouTube から構築される日本語音声コーパス

Laboro-ASVの利用について

Laboro-ASVに含まれる音声及びテキストデータの権利は、元のテレビ放送の著作権者に帰属していますが、著作権法30条の4に基づき、情報解析等の用途のために、商用利用および大学等の学術研究機関に対して無償で公開します。ただし、元のテレビ番組の音声を再構成し鑑賞する事を防ぐために、発話単位でランダムに並び替えられており、かつ番組名や放送局等の付加情報は含まれていません。

配布の流れ

ご利用にあたっては、当社HPのお問い合わせフォームからお問い合わせください。その際、Laboro-ASVの無償利用の申し込みであることを明記いただいた上、下記の点を記載ください。

●申込責任者 氏名
●所属組織/企業/機関/学校名
●部署/研究室名
●役職
●住所
●メールアドレス(組織/機関ドメインのもの。個人アドレス不可)
●利用目的

その後、申込書を電子契約サービスであるクラウドサインを通じて、指定のメールアドレスにお送りしますので、必要事項を記入の上、申し込みをお願いいたします。弊社側で申込書を審査した上で、申込書に記載のメールアドレス宛にコーパスをダウンロードするURLをお送りします。

なお、大学等の学術研究機関からの申込に関し、申込書の名義は、原則として教員や職員の方でお願いします。学生等の方からの申込の場合は、申込書の記入は学生の方でも結構ですが、申込者の欄には教員の方の名前を記入願います。教員の方のメールアドレスに申込書の承認の依頼をお送りします。また配布には、お問い合わせをいただいてから3週間程度かかりますことをご了承ください。