Laboro

Laboro.AIコラム

マルチモーダルAI【ビジネス成長のためのAI用語】

公開2024.6.11 更新2024.8.19
株式会社Laboro.AI リードマーケター 熊谷勇一

マルチモーダルAIとは、テキスト、音声、画像、動画などの異なるモダリティー(データ形式)を組み合わせたり関連付けたりして、それらの複合的な情報を一つのネットワークで学習・推論・処理をするAIのことです。対義語はシングルモーダルAI、つまりテキストや音声など単一のデータ形式のみを扱うAIです。

シングルモーダルAIとマルチモーダルAIを比較すると、前者は例えば画像という単一種類のデータを処理して顔認識をしたり、音という単一データを処理してテキスト変換したり、テキストという単一データを処理して要約や翻訳をしたりするAIモデルを指します。シングルモーダルではそれぞれのAIが個別特定のデータから学習・推論することに対して、後者は例えば画像と音、テキストの複数のデータを一つのAIモデルで学習し、与えられた環境を認識・推論することを得意とします。複合的な情報を同時に、そして組合せて処理することから、シングルモーダルAIでは得られない、多様な表現や解釈、洞察を備えたAIを開発できる可能性があります。

市場調査を手掛けるインサイトパートナーズ社は、マルチモーダルAIの市場規模は2023年の8億9350万ドルから 2031年には約12倍の105 億5020万ドルに達すると予測を出しており、業界を問わず広く活用されていくことが見込まれます。

応用&詳細解説

GPT-4o

OpenAIが2024年5月に発表した最新のAIモデル「GPT-4o(ジーピーティーフォーオー)」は、一般向けのサービスとしては初とも言えるマルチモーダルAIです。その詳しい仕様は公開されていませんが、単一のニューラルネットワークで構成されたAIであり、言語、画像、音声、動画を複合的に処理できるとされています。従来のChatGPT/GPT-4でも部分的に複数データへの対応が実現されていましたが、これらはChatGPTにDALL•E(画像生成AI)など別のAIモデルを連携させる形が取られていたことが考えられます。AI同士の即興デュエットを披露したりするなど、マルチモーダルAIの強みが発揮されたその様子が公開され、世界を驚かせました。なお、名称の「o(オー)」はomniは、「すべての〜」を表す接頭辞です。

OpenAIはさらに7月に、最新のAIモデル「GPT-4o mini」を発表しました。従来のモデルに比べて小型で利用料が安いのが特徴です。API経由での提供も開始しており、利用料は100万入力トークン当たり15セント、100万出力トークン当たり60セントで、「GPT-3.5 Turbo」と比較して60%、最高性能モデルである「GPT-4o」との比較では10分の1以下です。パラメーター数などを抑えた「安くて速い」AIモデルが技術開発のトレンドとなっており、この流れに追随したかたちと言えます。

LLMではなくLMM

LLM(大規模言語モデル)と似た用語として、LMM(Large Multimodal Model、大規模マルチモーダルモデル)も出てきました。その名の通り、マルチモーダルAIのことを指していますが、特にデータが大規模であることを強調した用語と言えるかもしれません。

言語習得の謎に迫る

人はどのように言語を習得するのかという、言語学者が長年追い続ける謎に、ニューヨーク大学はマルチモーダルAIを活用した研究で迫ろうと挑みました。一人の子供の頭部にカメラを取り付け、生後6〜25カ月のときに見た映像と耳にした声を集め、60万フレームの画像情報と3万7500の発話を起こした文字情報、つまりマルチモーダルな情報でAIに学習させたところ、「ボール」「ネコ」など22種類の言葉を6割以上の精度で見分けられるようになったとしています。

ビジネス応用

自動運転

自動運転では、走行中に障害物を検知する必要があります。目の前に現れた物体が何かを視覚的に判別するカメラ(画像データ)に加えて、物体がそこに存在するかどうかを判別するのに視覚情報に頼らないセンサー(時系列データ)の両方のモダリティーを組み合わせることで、障害物を高速かつ精度高く検出できる可能性が広がります 。

フリマアプリでの不正出品検出

1日100万品以上が出品されるフリマアプリ「メルカリ」では、不正出品の検出にマルチモーダルAIを活用しています。商品の説明文やブランド、カテゴリー、価格という情報だけでなく、商品画像も入力とすることで、以前より高精度な不正出品の検出ができるようになったとしています。

医療分野

マルチモーダルAIの例として、画像診断と電子カルテ情報を組み合わせた診断支援があります。比較的手軽な超音波検査による画像とカルテにある患者情報というテキストデータを基にAIが十分な診断支援ができれば、従来必要だった検査が不要になるなどさまざまなコストを低減させられることが期待されます。

迷惑行為や不正行為の監視

マンション管理にもマルチモーダルAIを応用できる可能性があります。例えば、大声などの騒音や、嘔吐や走り回りなど施設・設備を毀損する可能性のある迷惑行為、共有部に長時間放置されている物品などを、監視カメラによる映像とマイクによる音情報を活用することで検知し、警備員の業務支援ができるようになるかもしれません。

感情分析

マーケティングにおける市場調査で消費者・利用者にインタビューした結果を業務に生かす場合、発話という音声データと表情という画像データを一緒に解析してより高度な感情予測ができれば、製品・サービスの改善だけでなく、新商品・サービスの開発にも役立てられるようになるかもしれません。なお、このように人の感情を把握・予測・分析するAIは「感情分析AI」とも呼ばれています。

マルチモーダルAIにはさまざまなデータ形式が使われることを説明してきましたが、特にビジネス応用における現在の主流は、テキストと画像の二つのデータの活用です。その場合、例えばGPT-4oなどのAIモデルをAPIで活用する手があり、逆に言えば、1社での利用でそれらと同等のモデルを開発するために必要な膨大なデータを収集するのは、現実的ではないでしょう。いずれにせよ、目指すビジネス目標に対してどんなデータ活用法が最適なのかを見いだすには、ビジネスセンスが欠かせないのは言うまでもありません。

参考
産総研マガジン「マルチモーダルAIとは?
ソフトバンク「マルチモーダルAI
ビジネス+IT「GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは
The Insight Partners「マルチモーダル AI 市場 – 2031 年の成長予測、統計、事実
日経XTECH「OpenAIが「GPT-4o mini」発表、激しくなる「安くて速い」AIモデルの開発競争
日本経済新聞「人を再現? 耳目で言葉学ぶAI、言語習得の謎に迫るか
メルカリエンジニアリング「マルチモーダルモデルによる不正出品の検知
日経XTECH「「マルチモーダルAI」を医療に応用、患者情報も学習した画像診断AIの実力とは
DATA INSIGHT「マルチモーダルAIによる行動認識技術 ~COVID-19対策への適用例~
日本経済新聞「AIロボで効率接客

カスタムAIの導入に関する
ご相談はこちらから

お名前(必須)
御社名(必須)
部署名(必須)
役職名(任意)
メールアドレス(必須)
電話番号(任意)
件名(必須)
本文(必須)

(プライバシーポリシーはこちら