Laboro

Laboro.AIコラム

マルチモーダルAI【ビジネス成長のためのAI用語】

2024.6.11
株式会社Laboro.AI リードマーケター 熊谷勇一

AIにおけるマルチモーダルとは、テキスト、音声、画像、動画などの異なるデータ形式を組み合わせたり関連付けたりして、解析や生成を行う概念で、これらの複合的な情報を一つのネットワークで学習・推論・処理するAIは「マルチモーダルAI」と呼ばれます。対義語はシングルモーダルAI、つまりテキストや音声など単一のデータ形式のみを扱うAIです。

シングルモーダルAIとマルチモーダルAIを比較すると、前者は例えば画像という単一種類のデータを処理 して 顔認識をしたり、音という単一データを処理してテキスト変換したり、テキストという単一データを処理して要約や翻訳をしたりするAIモデルを指します。シングルモーダルではそれぞれのAIが個別特定のデータから学習・推論することに対して、後者は例えば画像と音、テキストの複数のデータを一つのAIモデルで学習し、与えられた環境を認識・推論することを得意とします。複合的な情報を同時に、そして組合せて処理することから、シングルモーダルAIでは得られない、多様な表現や解釈、洞察を備えたAIを開発できる可能性があります。

応用&詳細解説

マルチモーダルAIの応用は広範にわたっています。身近な例としては以下があります。

自動運転

自動運転では、走行中に障害物を検知する必要があります。目の前に現れた物体が何かを視覚的に判別するカメラ(画像データ)に加えて、物体がそこに存在するかどうかを判別するのに視覚情報に頼らないセンサー(時系列データ)の両方のモダリティーを組み合わせることで、障害物を高速かつ精度高く検出できる可能性が広がります 。

GPT-4o

OpenAIが2024年5月に発表した最新のAIモデル「GPT-4o(ジーピーティーフォーオー)」は、一般向けのサービスとしては初とも言えるマルチモーダルAIです。その詳しい仕様は公開されていませんが、単一のニューラルネットワークで構成されたAIであり、言語、画像、音声、動画を複合的に処理できるとされています。従来のChatGPT/GPT-4でも部分的に複数データへの対応が実現されていましたが、これらはChatGPTにDALL•E(画像生成AI)など別のAIモデルを連携させる形が取られていたことが考えられます。OpenAIによるGPT-4oデモ動画では、感情豊かな音声会話や、リアルタイムに起きていることの認識・説明したり、AI同士の即興デュエットなど、マルチモーダルAIの強みが発揮されたその様子が公開され、世界を驚かせました。なお、名称の「o(オー)」はomniは、「すべての〜」を表す接頭辞です。

ビジネス応用

フリマアプリでの不正出品検出

1日100万品以上が出品されるフリマアプリ「メルカリ」では、不正出品の検出にマルチモーダルAIを活用しています。商品の説明文やブランド、カテゴリー、価格という情報だけでなく、商品画像も入力とすることで、以前より高精度な不正出品の検出ができるようになったとしています。

医療分野

マルチモーダルAIの例として、画像診断と電子カルテ情報を組み合わせた診断支援があります。比較的手軽な超音波検査による画像とカルテにある患者情報というテキストデータを基にAIが十分な診断支援ができれば、従来必要だった検査が不要になるなどさまざまなコストを低減させられることが期待されます。

迷惑行為や不正行為の監視

マンション管理にもマルチモーダルAIを応用できる可能性があります。例えば、大声などの騒音や、嘔吐や走り回りなど施設・設備を毀損する可能性のある迷惑行為、共有部に長時間放置されている物品などを、監視カメラによる映像とマイクによる音情報を活用することで検知し、警備員の業務支援ができるようになるかもしれません。

感情分析

マーケティングにおける市場調査で消費者・利用者にインタビューした結果を業務に生かす場合、発話という音声データと表情という画像データを一緒に解析してより高度な感情予測ができれば、製品・サービスの改善だけでなく、新商品・サービスの開発にも役立てられるようになるかもしれません。なお、このように人の感情を把握・予測・分析するAIは「感情分析AI」とも呼ばれています。

マルチモーダルAIにはさまざまなデータ形式が使われることを説明してきましたが、特にビジネス応用における現在の主流は、テキストと画像の二つのデータの活用です。その場合、例えばGPT-4oなどのAIモデルをAPIで活用する手があり、逆に言えば、1社での利用でそれらと同等のモデルを開発するために必要な膨大なデータを収集するのは、現実的ではないでしょう。いずれにせよ、目指すビジネス目標に対してどんなデータ活用法が最適なのかを見いだすには、ビジネスセンスが欠かせないのは言うまでもありません。

参考
産総研マガジン「マルチモーダルAIとは?

ソフトバンク「マルチモーダルAI

ビジネス+IT「GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは

メルカリエンジニアリング「マルチモーダルモデルによる不正出品の検知

日経XTECH「「マルチモーダルAI」を医療に応用、患者情報も学習した画像診断AIの実力とは

DATA INSIGHT「マルチモーダルAIによる行動認識技術 ~COVID-19対策への適用例~

カスタムAIの導入に関する
ご相談はこちらから

お名前(必須)
御社名(必須)
部署名(必須)
役職名(任意)
メールアドレス(必須)
電話番号(任意)
件名(必須)
本文(必須)

(プライバシーポリシーはこちら