Laboro

Laboro.AIコラム

仕組みから知る生成AIと技術研究の今

2023.8.25
株式会社Laboro.AI リードマーケター 熊谷勇一

概 要

生成AIへの注目が続いています。それもそのはず、日本はChatGPTの 利用度合いが世界的に見て高かったり、国内企業による独自のLLM(大規模言語モデル)の開発宣言が相次いでいたりします。生成AIの仕組みを今一度確認しつつ、サービス例や技術研究のトレンドも見ていきます。

目 次

生成系AIとは
 ・従来のAIとの違い
 ・generativeやgeneration(世代)、general(将軍)はなぜ同じ語源か
生成AIの仕組み
 ・生成AI全般で言われるTransformerとは
 ・言語生成AIで言われるGPTとは
 ・画像生成AIで言われるCLIPとは
 ・画像生成AIで言われるStable Diffusionとは
 ・その他の画像生成AIモデル例①Midjourney
 ・その他の画像生成AIモデル例②DALL・E2
その他の生成系AIサービス・活用例
 ・動画生成(text to video)
 ・音声生成(text to audio)
 ・3D生成(text to 3D)
 ・コード生成(text to code)
生成AI技術研究のトレンド
 ・オープンソース化とモデルの縮小化
 ・超大規模モデルのファインチューニング手法
 ・生成ジャンルの細分化
加速する生成AIの産業応用

生成系AIとは

生成AI(英:Generative AI)は、画像、文章、音声、プログラムコード、構造化データなどさまざまなコンテンツを生成することのできる人工知能のことです。大量のデータを学習した学習モデルが、人間が作成するような絵や文章を生成することができます。

NIKKEI COMPASS「生成AI(ジェネレーティブAI)

従来のAIとの違い

「Generative」という言葉は、「生産または発生することができる」という意味です。生成AIという言葉が注目されている理由としては、「従来のAI」(生成AIが出てくる前のAI)とはいくつかの違いがあることが挙げられます。

従来のAI も、正解として与えられるデータの特徴を学習し、その学習内容 に基づいて予測を行い、結果を出力するものでした。ですが、そこで出力される結果は、学習した内容に対する誤差や合致度などを表す正解率や適合率といった数値データが主でした。目的は、例えば「キズを検出する」のように、決まったタスクを自動化することに置かれることが多く、何かを新たに生成・創造することが目的とされることはありませんでした。

生成AIの場合は、もちろん予め定まった正解としてのデータ学習もしつつも、主にはデータ間の関係性やパターンが学習対象となり、さらに自律的に学習を進めその精度を更新していくための仕組みも施されています。 学習に使うアルゴリズムは、両者ともニューラルネットワークです。生成AIでは、画像やテキストなど構造化されていないデータセットを基に学習し、新しいコンテンツを生成することを目的にします 。

NRI「生成AI

generativeやgeneration(世代)、general(将軍)はなぜ同じ語源か

ところで、generativeと聞くと、関連語としてgenerate(生成する)、generation(世代、生成)、general(一般的な、将軍)を思い出す人もいるでしょう。「世代」や「将軍」がなぜ同じ語源なのでしょうか。gen-は、「出産する、生み出す」を意味する原始インドヨーロッパ語根です。generateはgenerationの基になった言葉のように見えますが、実は逆で、generationからgenerateが派生しています。generationはラテン語generatus(「生む、生産する」の過去分詞形)が基です。そしてgenerateを形容詞化したgenerativeは「生み出す力を持つ」を意味の核として持ち、「生成的な、生成力を持つ」といった訳語が当てられるようになっています。

generationがなぜ「世代」という意味を持つかというと、 子が生まれその子が成長して子をもうけるまでの期間が約30年と考えられる一代が意味の核であり、これをよく使う表現にすると 「世代」になるわけです 。generalが「一般的な」という形容詞になるのは、「生み出された集団全体の」という意味が源です。そこからさらに「集団全体を管理する人」という意味も持つようになり、「将軍」という意味が現在も使われています。AIを活用して生成がある面では容易にできるようになった現在、この「管理」という派生の意味が重要になってくるかもしれません。

エティモンライン – 英語語源辞典「generation (n.)
TOEFL® Web Magazine「第25回 gene│TOEFL® TESTスピーキング英単語 ワンポイント講義
語源英和辞典「general

生成AIの仕組み

生成AIのモデルはさまざまにありますが、 その 一例を、文章生成(text to text)と画像生成(text to image)を例に説明します。下図の通り、文章生成の代表モデルとして GPTを挙げると 、その要素技術にTransformer(トランスフォーマー)があります。画像生成の代表モデルとしては Stable Diffusionが知られていて 、要素技術にDiffusionとCLIPがあり、それらはGPTと同じくTransformerにつながっています。以下、一つずつ説明していきます。  

生成AI全般で言われるTransformerとは

前述の通り、Transformerは文章生成でも画像生成でも使われている要素技術です。文章に含まれる単語のように、連続したデータの関係を追跡することによって、文脈ひいては意味を学習するニューラルネットワークです。Transformer モデルは、進化する一連の数学的手法 (アテンションまたはセルフアテンションと呼ばれます)を適用して、同じ系内にある隔たったデータ要素間の微妙な相互影響や相互依存関係を見つけます。そしてモデルが持つパラーメーター数が大規模になればなるほど、精度が格段に向上するという「スケーリング則」が言われるようになりました。 この長所を生かそうと、Transformerの登場以降、モデルの 規模が求められ始めました。

Transformerにとって重要な技術に「自己教師あり学習」があります。自然言語処理の場合は、途中までの部分を読み込ませて次の単語を予測します。そうすると、正解データ、正解のラベルを用意しなくてよくなります。文章があるだけで、途中までの文章から次の単語を予測するという予測問題を作ることができ、この問題を使って学習をさせると、次の単語がうまく当てられるモデルができるわけです。これにTransformerを使うと、次の単語を当てはめる際に必要な単語の連接の確率や文法構造、トピックのつながり、背景知識などを学習させられ、精度が上がりやすくなりました。

NVIDIA「Transformer モデルとは?
日本経済新聞「AI、閉塞破る第3の革新 「トランスフォーマー」の衝撃「ChatGPTエフェクト 破壊と創造のすべて」(2)
logmi Tech「技術の鍵は「トランスフォーマー」と「自己教師あり学習」松尾豊氏が、第3次AIブームからひもとく“AIの歴史”

言語生成AIで言われるGPTとは

GPT(Generative Pre-Trained Transformer)は2018年に発表されましたが、2022年11月にOpenAIがChatGPTを発表して広く知られるようになりました。大規模なTransformerモデルで、大量の学習データから次に来る単語の確率を予測する技術です。従来の言語AIと比較すると、「データ量の増大」「パラメータの数の増大」「多くのタスクで追加学習なしで高精度 」という特長があります。

一方、ChatGPTなど では、命令(プロンプト)の出し方次第で得られる回答が異なるため、より最適なプロンプトを入力することが求められます。言い換えると、プロンプトを使いこなせないと、意図した通りの回答を得ることができません。そこで現在では、AIから望ましい出力を得るために、指示や命令を設計、最適化するスキルである「プロンプトエンジニアリング」という概念も登場・発達しています。

関連して、ChatGPTでは、 ある質問から会話学習済みモデルが回答した文章に対し、どれくらい人間の感覚に近いかを報酬モデルが判定し、元のモデルにフィードバックすることを繰り返して強化学習を実施しました。このステップによって人間の感覚を教え込んだため、ChatGPTは適切な文章を出力できるようになりました。

NRI「プロンプトエンジニアリング

画像生成AIで言われるCLIPとは

CLIP(Contrastive Language–Image Pre-training、クリップ)は、2021年2月にOpenAIによって公開された、言語と画像のマルチモーダルモデル(数値、画像、テキスト、音声など複数のモダリティー(データ種別)を組み合わせて、もしくは関連付けて処理できる単一のAIモデル)です。ある画像とそれに対する説明文の類似度を出力でき、text to imageの画像生成では欠かせないモデルになっています。ウェブ上に豊富にある画像とテキストのペアのみの学習を行い、ImageNet(カラー写真の教師ラベル付き画像を1400万枚以上も持つ大規模なデータベース)やその関連データセットで高い精度での分類が可能です。画像とテキストの関連性のランク付けもできます。

TRAIL「CLIP:言語と画像のマルチモーダル基盤モデル」 

画像生成AIで言われるStable Diffusionとは

Diffusion(ディフュージョン:拡散)モデルによる高品質な画像生成モデルと、前述のCLIPが融合したモデルです。CLIPがテキストと画像の関係性を学習するのに対し、Diffusionは画像に対してランダムノイズを徐々に当てていく過程を学習し 、完全にノイズになったものを逆再生 させることで生成を実現するというもので、ノイズ除去後の画像と元の画像の差分を少なくするように学習した技術です。 計算に時間がかかる欠点はあるものの、GAN(Generative Adversarial Network、敵対的生成ネットワーク)などより多様な画像を安定して出力可能です。

なおGANは、発表された2014年当時かなり話題になった一世代前の画像生成AIで、 画像を生成する「ジェネレータ」と、「その画像が本物か、ジェネレータによって生成された偽物か」を予測して出力する 「ディスクリミネータ」を競い合わせることで 新しい画像を作り出すことを狙ったものです 。

スタビジ「画像生成AIで頻出の拡散モデルについて分かりやすく解説!

その他の画像生成AI ①Midjourney

単語、文章を問わず、描いてほしい絵のイメージやキーワードを入力すると、それに沿った画像をAIが作成してくれるサービスです。「Discord」というチャットサービス上で動くツールで、利用するにはDiscordのアカウント登録が必要です。 テキストは日本語に対応していますが、英語を入力した方がより高品質のイラストが作成される傾向にあるようです。無料利用の場合は「1アカウントあたり約25枚」の枚数制限があります。有料の場合、月額10ドルで月200枚まで、月額30ドルで枚数無制限のプランがあります。有料プランのみイラストの商業利用が可能となります。

その他の画像生成AI ②DALL・E2

DALL・E2(ダリツー)は 、OpenAIが2022年4月にリリースしました。画家のサルバドール・ダリとピクサーアニメ映画に登場するキャラクター「ウォーリー」(WALL-E)名前が由来とされています。1回の使用で3~4枚の画像が生成されますが、1回の使用ごとに1クレジットが必要になります。このクレジットは初月に50クレジットが付与され、その後は毎月15クレジットが配布されます。それ以上利用する場合には、15ドルで115クレジットを購入することも可能です。

SE Design「DALL・E2とは?基本機能や使い方、利用料金、注意点などを解説

画像生成AIについてはこちらもご覧ください。
私たちが画像生成AIで描くものは、アートか、それとも心か

その他の生成系AIサービス・活用例

文章生成と画像生成で生成AIの仕組みを見てきましたが、生成するものはそれらにとどまりません。代表的な例を見ていきます。  

動画生成(text to video)

1枚の画像からAIが動画を生成する、ランウェイ(Runway)社のサービス「Gen-2」が話題になっています。 2023年2月に発表された「Gen-1」は、動画をプロンプトに応じて別の動画へと変換する(video to video)サービスでしたが、同年6月に一般にもリリースされたGen-2からは、描いてほしい場面をテキストプロンプトとして入力すると、動画を生成する「text to video」が実現できるようになりました。さらに7月下旬にアップデートして、画像から動画を生成する「image to video」が追加。1コマ目の画像を指定できるようになり、狙った場面を作り出しやすくなりました。

ASCII×AI「動画生成AIがすごすぎる 映画登場も遠くない

音声生成(text to audio)

2023年1月にGoogleの研究部門である「Google Reserch」は、文章を入力として音楽を生成するAIツール「MusicLM」を発表しました。28万時間に及ぶ音楽のデータセットを用いて学習したAIを使用し、同年5月に体験版が出ました。ユーザーによる「ディナーパーティーのためのソウルフルなジャズ」や「催眠術にかかるようなインダストリアルなテクノサウンドを作る」といった複雑な文章に応じた曲をいくつか作成することが可能としています。

Soundmain「Google、テキストから音楽を作れる音楽生成AIツール「MusicLM」試用版を公開

3D生成(text to 3D)

大手半導体メーカーでありAI開発にも力を入れているNVIDIAが2022年11月に、入力したテキストを基に3Dモデルを生成するAI「Magic3D」を発表しました。Magic3Dは3Dモデル生成に2段階のプロセスを使用しています。最初に入力されたテキストを基に、NVIDIAが提供している画像生成AI「eDiffi」で2D画像を生成。その後、画像から空間を構築するNVIDIA Instant-NGPを使用し、2D画像から低解像度の3Dモデルを生成します。次に、低解像度3Dモデルメッシュから高解像度の3Dモデルを合成する「DMTet AI」を使用し、高解像度の3Dモデルを抽出しています。 

Gigazine「テキストから高解像度の3Dモデルを生成するAI「Magic3D」をNVIDIAが発表、テキストの微調整やスタイルの模倣も可能

コード生成(text to code)

GitHubは2023年3月に、プログラマー支援ツール「GitHub Copilot X」を進化させた「GitHub Copilot X」を発表しました。OpenAIのGPT-4(Generative Pre-trained Transformer 4)を採用し、チャットと音声機能が組み込まれ、プロジェクトのあらゆる場面でAIが利用可能としています。 GitHub Copilotとは、OpenAIのGPT-3を改良したテキスト生成の言語モデルである「OpenAI Codex」を利用するコード生成・変換を得意とするプログラマー支援ツールです。GitHub Copilotに対してコードを書いたり、コードにさせたいことをコメントとして伝えたりすると、プログラムに必要なコードの候補を提示してくれます。また日本語のコメントも処理できることが確認できています。

アンドエンジニア「「GitHub Copilot X」が発表!開発者を支える新技術

生成AI技術研究のトレンド

現在、生成AI技術研究のトレンドとして以下の三つが見られます。  

オープンソース化とモデルの縮小化

クローズなモデルであるOpenAI一強の状態から、Meta AIによるLLaMA、スタンフォード大学によるAlpacaなどオープンソースで高精度なモデルが徐々に登場しています。さらに、OpenAI によるGPT-3のパラメータ数は1700億、GoogleによるPaLMは5400億に対し、前述のLLaMaは650億、Alpacaは70億と文字通り桁違いに減っていますが、精度は維持されていることが報告されてい ます。  

超大規模モデルのファインチューニング手法

LoRA(追加学習の際に必要となるメモリと計算量を大幅に削減し、かつ数十枚という少ない画像データでも良好な結果が得られる手法)やその派生手法であるAdaLoRAなど、ファインチューニングを効率的に実施する手法が登場しています。  

生成ジャンルの細分化

前述のStable Diffusionを開発したStability AIは、テキストと画像を同時に生成できるDeepFloydもリリースしています。例えば、「腹部に『おやすみ』という文字が書かれた服を着たコアラ」というテキストプロンプトを入力すると、このテキストの通りの画像が出力されます。 生成AIと関連の深いLLM(Large Language Models、大規模言語モデル。大量のテキストデータを使ってトレーニングされた自然言語処理のモデル)は産業別に特化する動きが見られ、医療系の「ChatDoctor」、金融系の「BloombergGPT」、化学系の「BO-LIFT」などが登場しています。

加速する生成AIの産業応用

生成AIに関して日本は、ChatGPTの利用度合いが世界的に見て高かったり、国内企業による独自のLLMの開発宣言が相次いでいたりするなど、利用・開発の両側面でビジネス活用が今後促進されるであろう状況がうかがい知れます。 しかしその用途に目を向けてみると、コールセンター業務のチャットボット化や、広告デザインの生成、文章要約・翻訳といったバックオフィス業務の効率化など、総じてみれば既存にあった業務をAIに代替させるケースが多い状況で、生成AIを活用した新製品開発、新サービス開発、新規事業の開発など、ビジネスモデルの変革にもつながるような本来の意味でのDXを目的とした用途での生成AIの活路は、まだ見出されていない状況のようです。

急速に技術進展を見せる生成AIですが、その真価は、中長期的な視点でビジネス成長をもたらせるかどうかにあり、当社ではこうした成長投資としてAI活用を目指すようなテーマを「バリューアップ型AIテーマ」と定義しています。そして、バリューアップを目的としたAI開発においては、 そもそもビジネス課題が何であり、それを解決するためのソリューションとして生成AI をどう設計(デザイン)すべきか、AI技術と現場ビジネスの両方を見据えて検討を入念に行う必要があります。さらに 当社ではこのテクノロジーとビジネスをつなぐプロセスを 「ソリューションデザイン」という名で体系化し、AI開発に必要なコンサルティング・プロセスとしてサービス提供しています。 テクノロジーとビジネスの両面の視点を携えてソリューションデザインを行い、中長期的なバリューアップのために活用していけるかどうかが、今後の生成AIの産業応用においては重要になってくるはずです。

カスタムAIの導入に関する
ご相談はこちらから

お名前(必須)
御社名(必須)
部署名(必須)
役職名(任意)
メールアドレス(必須)
電話番号(任意)
件名(必須)
本文(必須)

(プライバシーポリシーはこちら