Laboro.AIコラム

LLM（大規模言語モデル）、トレンドは「小で事足りる」

公開2024.1.22　更新2024.9.12
株式会社Laboro.AI　リードマーケター　熊谷勇一

用語解説

LLM（Large Language Models、大規模言語モデル）とは、文字通り大量のデータとディープラーニングを用いた言語モデルのことです。自然言語処理の分野で使用され、テキストの生成などの能力に長けています。しかし一方で、単語や文章の生成に特化しているため、音声や画像の処理には制約があります。

LLMが大規模たる所以は、この「データ量」に加えて「計算量」と「パラメータ数」の規模の大きさにあります。計算量とはコンピュータが処理する仕事量のこと。そもそも言語モデルとは、文章の並び方に確率を割り当てる確率モデルを指し、実体は、簡単な計算式を大量に組み合わせた超巨大な数式です。そして、この数式には膨大な量のパラメータが含まれています。パラメータ数とは確率計算を行うための係数の集合体のことで、パラメータ数が豊富なことはLLMの特徴の一つです。

LLMの開発では、後に続く単語の予測がうまくいくようにパラメータを調整すること（＝学習または訓練）を通して、精度を向上させていきます。こうして作られた学習後の言語モデルに質問などを入力すると、それに続く単語を次々に予測し、長文の回答が出力されていきます。

応用&詳細解説

「データ量」「計算量」「パラメータ数」三つの大規模化については、2020年にサム・アルトマン氏が率いるOpenAIが発表した論文 ”Scaling Laws for Neural Language Models” で触れられ、自然言語モデルの性能とこれら三つの間には「Scaling Law（スケーリング則）」が成立すると提唱されました。OpenAIはこの論文の主旨に則って三つを大規模化することで、精度の高い大規模言語モデルをつくり出すことに成功したのです。

LLMを違う説明の仕方をすると、「自然言語処理において大量のテキストを学習し、自然な文章の作成や要約、受け答えができるようにしたAIモデル」とも言えます。代表的なモデルにはChatGPTのGPT-4やGPT-3.5（パラメータ数非公開）の他に、GoogleのLaMDA（同1370億）や、国産ではオルツが開発したLHTM-2（同1600億）などがあります。ChatGPTは「GPT-4やGPT-3.5というLLMにチャットというユーザーインタフェースを組み合わせた生成AI」とも言えます。

既に実現している使い方としては、文書の校正・要約・翻訳、プログラミングのサポート、対話的なウェブ検索、小説などの制作やその制作のためのアイデアの生成などがあります。さらに今後サービス化が考えられる例として、ストレスや時間の制約のないカウンセリング・コーチング、学習のサポート、士業や医療など高度な専門性が必要な仕事のサポート、より親しみやすいインターフェース、文献調査の効率化などによる科学研究の加速などが期待されるところです。

マルチモーダルLLMとGPT-4、GPT-4o

GPT-4では入力データとして画像が扱えるようになったところ、ChatGPTの最新モデルであるGPT-4oでは音声もテキストも動画も入力として受け付け、音声とテキストおよび画像の出力ができるようになりました。こうした異なるモダリティー（種類）を扱えることをマルチモーダル、それが実現できるAIのことをマルチモーダルAI、さらにそれがLLMであればマルチモーダルLLMと呼ばれます。

GPT-4でも音声認識や音声合成と組み合わせれば音声での対話はできましたが、それは音声をテキストに変換して、テキストをLLMに入れて、出てきたテキストを再び音声に変換する方式でした。そのため、処理に時間がかかる、まとまった量の音声をためないとテキストに変換ができなし、声のトーンを変えられないなどのボトルネックがありました。

GPT-4oではそうした制約を取り払い、平均の応答時間を0.3秒に短縮し、途中で割り込んだり、内容に応じて声のトーンを変えたりできるようになりました。これにより、音声認識に向かって話しかけるのではなく、人と話すような自然な対話ができるようになっています。

マルチモーダルAIについてはこちらもご覧ください。
マルチモーダルAI【ビジネス成長のためのAI用語】

応用例

NECはボクシング世界戦の試合映像からハイライトシーンを作成する実証実験をしたと発表しました。AIによる映像認識技術を駆使して試合映像を分析し、激しい打ち合いなど勝負の分かれ目となるシーンの映像と画像を抽出し、状況を説明する文章をLLMで生成しました。実用化できれば、試合開始から終了まで映像を常に視聴することが難しい場合でも、SNSを通じて臨場感あふれる試合情報を把握しやすくなると見込んでいます。さらに、この映像認識とLLMを組み合わせた技術は、ドライブレコーダー動画の分析で活用を見込んでいたといいます。交通事故の際に動画を分析し、損害保険金請求用の報告書に活用することなどを想定し、ドライブレコーダー動画の分析以外の用途開拓を狙うとしています。

自律移動ロボットを開発するプリファードロボティクスは、音声による指示で家具などを移動するお手伝いロボット「カチャカ」をLLMに対応させました。カチャカは従来、「A（物）をB（場所）に持ってきて」などという定型の音声コマンドにのみ対応していましたが、LLMに対応させることによって自然な会話を通じて指示を出せるようになりました。例えば、「いつものやつを持ってきて」と言うだけで、仕事の道具を載せた専用棚を仕事部屋に持って来てくれたり、棚を運んできたら30秒後に棚を戻すという動作などを習慣化させたりすることもできるとしています。

ビジネス応用

2023年6月に経団連（一般社団法人日本経済団体連合会）がAI活用促進に向けた政策提言を発表し、その主眼の一つが「LLMをはじめとするAI基盤技術を日本独自でまかなうべき」というものでした。さらに経団連に歩調を合わせるかのように、2023年からは日本企業によるLLMの開発が相次いでいます。

また、前述の通りLLMはテキストデータを中心に処理する能力を持ちますが、数値、音声、画像など複数のモダリティーと組み合わせることでより広範な応用ができるため、さまざまな生成AIと組み合わせることで複合的なタスクに取り組めるようになることが期待されます。しかしそうしたマルチモーダルを含むLLMを運用するためには高性能なGPUなどへの設備投資が必要になり、実用されるまでに時間的・金銭的コストも多くかかってしまいますし、特定のビジネスのために活用するにはオーバースペックということもあります。

そこで最近注目されているのが、SLM（Small Language Model、小規模言語モデル）で、GAFAMに代表されるITジャイアントたちが、小規模モデルゆえに低コストで運用できるSLMの開発・性能向上に注力するようになってきています。例えばマイクロソフトが2023年11月に発表した「Orca2」は、モデルのパラメータ数が130億と70億でありながら、およそ10倍の規模である1000億パラメータ級のLLMに匹敵する推論性能を備えていると言われています。

こうした「小規模でも事足りる」ということの他にも、SLMが注目される理由として二つ挙げられます。

一つは、上記のようなITジャイアントによるLLM独占への警戒感があることです。大規模モデルの学習は規模が大きくなるほど必要な演算量も増えます。AWS（アマゾンウェブサービス）を使って学習をする場合、数十億円から数百億円がかかるといわれているという中で、継続してモデルを大規模化できる企業は限られるためです。

もう一つは推論側の演算量の削減です。モデルの大規模化に伴い、回答の性能は向上するものの、回答のための推論演算の量も増してしまうことです。GPT APIを使ったビジネスアプリケーションにおいてもこの観点は重要で、ビジネスでLLMを活用する場合も消費電力や利用コスト当たりの性能が当然重要になってくるからです。

近年、日進月歩で進化するLLM、SLMのこうした動きに注目しつつ、自社ビジネスに最適な言語モデルの在り方を検討していくことがビジネス応用において重要になってきています。

参考
ソフトバンク「大規模言語モデル（LLM）」
産総研マガジン「自然言語処理とは？」
NRI「大規模言語モデル」
教育とICT Online「生成AI、対話型AI、LLMは何が違う？」
ITmedia「「GPT-4o」は何がすごい？　なぜLLMは画像や音声も扱えるの？　“マルチモーダル”について識者に聞いた」
日本経済新聞「NEC、AIでハイライトシーン抽出　ボクシング試合で実証」
日本経済新聞「コミュ力高いロボ、荷物も移動　大規模言語モデルで進化」
岡野原大輔『大規模言語モデルは新たな知能か　ChatGPTが変えた世界』
日経XTECH「小規模言語モデルに注目」
ITmedia「機械に話しかけて設定できる時代が来る？　なぜ“小規模”なLLMが求められるのか」