人類の可能性を広げる「生成AI」の今｜ Macnica Exponential Technology Media

　その名をニュースなどで見ない日がないほど業界が白熱し、加速度的に進化している生成AI。本記事では画像生成AI 基盤モデル「Stable Diffusion」のリリースにより、一躍生成AIのリーディング企業となったStability AI社の取り組みや、同社が取り扱う多種多様なモデルをご紹介します。

※：本記事は、2023年11～12月開催の「MET2023」の講演を基に制作したものです。

※：最新の生成AI基盤モデル/サービスなどにつきましては、Stability AI Japanのウェブサイト<https://ja.stability.ai/>をご覧頂くか、問い合わせ窓口 <partners-jp@stability.ai> にお問い合わせください。

【講演者】

10年先をも見越して成長の一途をたどる、生成AI
Stable Diffusionとは？
画像生成の事例
多様なモデルが活躍中

10年先をも見越して成長の一途をたどる、生成AI

　私たちは、2022年が生成AIの元年だと捉えています。そして皆さまも、同年の末ごろから色々なメディアでその情報を見ることが多くなったのではないでしょうか。AIの研究自体は1950年代から学者の方々が進めてきており、現在は第3次AIブームと呼ばれる時期にあります。

　2022年に生成AIが盛り上がりを見せた要因として挙げられるのは、数ヶ月単位で行われた、大きな製品のリリースです。多くの方が生成AIを知ることになったきっかけは、同年12月に登場したChatGPTだったと思います。一方で、弊社はStable Diffusionという生成AIを提供しています。

　Stable Diffusionは、2022年にリリースされた生成AIのなかでもかなり特殊です。オープンなモデルであるため多くの方が技術を開発し、さらにコミュニティの方々によって周辺技術が発展し、その影響で精度がどんどん高まっていきました。このことは、生成AIのブームを後押しした要因でもあると考えています。

　このブームは一過性のものではなく、今後10年先を見越したうえで発展していくと、業界関係者や投資家の方々が見ています。たとえばI/OFundのマネージャーの見立てでは、2032年までに生成AIがテクノロジー支出に占める割合が12％増加すると予想されています。

▲Stability AI Japan社のビジョン。

　弊社のオープンモデルは、GitHubやHugging Faceなどのプラットフォームにアップロードしているため、あらゆる方がダウンロードでき、カスタマイズも可能です。ご自身のPCはもちろん、企業のデータセンターに置いていただければ、ローカル環境でもご利用いただけます。他のモデルの多くはインターネットへの接続が前提であるため、自社の機密をプロンプトに組み込むと、それが流出してしまうおそれがあります。しかし、オープンなモデルをオンプレで運用すれば、漏洩を防ぐことができます。

　加えて、マルチモーダルでさまざまなモデルを弊社は提供しています。画像生成を行うStable Diffusion以外では、テキスト生成・3Dモデル・音楽生成などをリリースしました。たとえば「南の島のビーチで、ちょっとチルったローファイな曲をかけて」というプロンプトを打つと、それらしい曲が自動で生成されます。

　弊社はまだまだ歴史の短いスタートアップ企業ですが、外資系のスタートアップ企業でこれだけ日本に強くコミットしているところは珍しいと思います。そんな弊社の日本法人では、「国内で開発したモデルを一般の方々にも正しく認知いただき、企業様とのパートナーシップを元に、さらに別の企業様にも導入いただくこと」をミッションのひとつにしています。一方で、グローバルな企業ではあるため、世界中から優秀な方々に参画していただき、日々新しいモデルの研究と開発に降り組んでいます。

　開発にあたっては、数千台のGPUをはじめとしたリソースを確保しています。できあがったモデルはいくつかの形態で提供しており、準備なしにAPIにアクセスいただける仕組みもご用意しています。また、パートナー様と共同で弊社のモデルをカスタマイズし、特定の業界向けのモデルを作ることもあります。

Stable Diffusionとは？

　ここからは、Stable Diffusionのことを簡潔にご紹介していきます。

▲セッション中には、ここでStable Diffusion XLの紹介動画が挿入され、実際に作成できるサンプルの画像が次々と映し出されました。

　Stable Diffusion XLは、2022年の8月にリリースしたものから数回のバージョンアップを経たことで、従来の3倍以上のパラメーター数・規模・性能をもったモデルになりました。当初は実現できなかったようなリアルな表現や、細かい表現が簡単なプロンプトの入力で行えるので、特に初期からお使いいただいている方には進歩を感じていただけるのではないかと思います。

　また、画像の表現の仕方やタッチの付け方も自在に行えます。たとえば「海外の男性トイレで使われている便器を宇宙時代の建築物に見立てた画像を生成して」というプロンプトを入力すると、画像右側のようなものが生成されます。つまり、プロンプトから新しい画像を作るだけではなく、既存のものを変化させるという使い方ができるわけです。フォトレタッチをされたことがある方なら、かなり色々な使い方ができますので、お楽しみいただけると思います。

　2022年8月以降、生成AIによって作られた画像は世界で150億枚（※：2023年11月～12月現在）にのぼるとも言われています。このように、画像生成は非常に勢いのあるムーブメントであり、Googleの検索ワードでも「生成AI」や「Stable Diffusion」が多くなってきている状況です。

　Stable Diffusion XLではクレイアニメーション風にしたり、白黒のシリアスな画像にしたりと、出力した画像をチューニングする方法も色々と出てきています。

画像生成の事例

　ここからは、Stable Diffusionのビジネスシーンでの活用方法をご紹介します。まず、もっとも引き合いが多いのは、広告やマーケティングです。それ以外だと、最近ではデザイン・建築・インテリア・ファッションなど、さまざまな業界のお客様が新しいデザインのインスピレーションを得る目的でご利用になっています。

▲次の動画では、ECサイトの商品画像の編集を行っているシーンが流れました。そのSaaSの裏側でも、Stable Diffusionが使われているとのことです。

　ECサイトでは、同じ商品でも季節によってアピールの仕方を変えたり、モールによって異なるターゲット層に合わせて雰囲気を変えたりする工夫が必要です。そんなときに商品画像を1つご用意いただければ、最適な背景画像を簡単に生成できるという例になります。場所の用意やカメラマンの手配など、時間・金銭的なコストを抑えることから、弊社のパートナー会社様にもバリューを感じていただいています。

▲さらに別の動画では、2Dと3Dをミックスする工程が。動画やゲームの3Dモデルに画像を貼り付けることで新しい環境を見せる用途に使えるため、バーチャルリアリティや、MRの世界での活用が見込まれています。

　他にも医療やミュージックビデオなど、さまざまなユースケースがあり、インパクトのある動画を作る目的で日本のアーティストの方にも実際にご利用いただいています。生成AIは今後も発展していくものなので、若い世代の方にも触れていただき、新しい活用法を見つけるために、教育イベントにも参画しています。

多様なモデルが活躍中

　マルチモーダル以外の基盤モデルとして、2023年8月にリリースしたコード生成・コーディング補助用LLMがあります。こちらは本来、プログラマーの方が使われるコーディングの生成モデルですが、学習用途としても使えるというお声をいただいています。「こういう場合には、どんなコードがよいのか？」「何をオプションとして選べるのか？」をアドバイスしてくれるモデルとしてご利用いただくのも、面白い用途かと思います。すでに12言語がサポートされており、今後も対応する種類を増やしていく予定です。

　こちらは国内で開発した日本語の大規模言語モデルで、商用利用可能なモデルとして、2023年10月に再リリースしました。ChatGPTに近いものですが、ダウンロードしていただければ、ローカル環境でもご利用いただけます。2023年末頃には、さらに次のバージョンをリリース予定です。

　写真に映っているものをテキストに変換し、出力するモデルも扱っています。画像の状況を説明することも可能なので、たとえば異常検知などに使うことができます。AIが異常検知に使われているケースは既にたくさんありますが、従来は最終的におかしな点を人間が見て調べる必要がありました。どういった状況でアラートが鳴ったのかが自動的に分かれば便利ですし、より用途も広がっていくのではないでしょうか。

　音楽生成モデルでは、テキストで雰囲気を指定するだけで曲ができます。これは画期的なことであり、国内のとあるイベントでも実際にご利用いただきました。「楽器が弾けない」と諦めていた方にも、作曲を楽しんでいただければ嬉しく思います。

　そして、もっとも最近（※：2023年11月～12月）にリリースしたのが、軽量な汎用言語モデルです。生成AIのモデルが世界的にどんどん大規模化するなか、私たちは逆に小規模なモデルの開発にも注力しています。これが実現すれば、将来的にはスマホのような携帯端末のローカル環境でも、生成AIモデルを動かすことができるようになるかもしれません。いわば、個人のパーソナルアシスタントが携帯に入っているという世界ですね。

　今回は、弊社の取り組みやさまざなモデルをご紹介しました。皆さまの業務などでご利用いただけそうなシーンがございましたら、ぜひ弊社にご連絡をいただければと思います。

※：最新の生成AI基盤モデル/サービスなどにつきましては、Stability AI Japanのウェブサイト<https://ja.stability.ai/>をご覧頂くか、問い合わせ窓口 <partners-jp@stability.ai> にお問い合わせください。