チャットAI、うちもやります。Stable Diffusion開発元が語る、ジェネレーティブAIと「Stable Chat」の未来

2022年夏に起きたAIイラストの一大ブームは、Midjourneyがサービスを開始したことで始まりましたが、その技術を広めたのはStability AIという英国のスタートアップでした。同社がオープンソースとして提供した「Stable Diffusion」は瞬く間に広がり、特定ジャンルの画風に特化した亜種が次々と生まれ、AIで画像を生成するということが決定的に普及しました。

その震源地であるStability AIがこの1月に日本法人を設立。テクノエッジでは同社代表のジェリー・チーさんと、Stable Diffusionを使った画像生成サービスMemeplexを開発し、最新のAIトレンドを追っている清水亮さんにジェネレーティブ（生成系）AIの今後について語ってもらいました。

――Stability AIにはどういう経緯で入社したんですか？

ジェリーさんGoogle Brain日本支部の創設者で昔からの知り合いだったDavid HaがStability AIの戦略責任者となり、その縁もあって日本市場の立ち上げを一任されることになりました。彼は日本在住ですので、今は彼と2人でやっているんですが、採用も進めていて、数カ月で5、6人の規模になる予定です。

▲Stability AI日本支社代表のジェリー・チーさん

――日本が最初の支社ということでしょうか。

ジェリーさん中東にもう1社、日本とほぼ同時期（1月）に設立しています。

――それは同じ目的で？

ジェリーさん中東の場合には政府が非常に積極的に支援しているというのもあります。日本はゲーム、アニメといったクリエイティブ産業が大きくて面白くて、海外でも愛されています。今は画像生成をやっていますが、今後は動画生成、3次元アセット生成、文字生成などさまざまな生成AIを提供していきます。ですから、日本ではいろいろな応用方法がありますね。

―― 画像だけで終わるつもりはないという。文字生成ということはChatGPT対抗ということですね。

ジェリーさんはい。

―― 清水さんが開発・運営しているMemeplexは、サーバ上のサービスで、Stable Diffusionやその派生系、また様々な追加ツールがいち早く使えるようになっていて、Googleが公開したDreamBoothというカスタム学習手法も使えるようになっているのが特徴です。

ジェリーさんStability AIで提供しているWebサービスの「DreamStudio」も大規模な改良を施しているところです。

―― 非常に紛らわしいんですが、Stable Diffusion Onlineというサービスがあって、これはStability AIと関係が……。

ジェリーさんないですね。いろんなところで「Stable Diffusion」という名前が使われています。もちろん弊社としてもブランディングはやっていくんですけど。オープンソースで弊社とコミュニティが作ったものなので。弊社としてはこの名前がより広く知られたらうれしい。今後、Stable Videoというものも出すんですが、そうするとStable Diffusionのビデオ版なんだと認識されやすくなる。そうするとうれしいです。

清水さんMemeplexではStable Diffusionだけを使っているわけではなく、たくさんの派生系も使えるようになっているので、ちょっと訳がわからなくなっているかもしれないですね。

僕はStability AIがStable Diffusionを作ってくれたことには非常にリスペクトして感謝していて、Memeplexで基本的に全機能を無料で提供しているのは、Stable Diffusionがオープンソースの形でモデルを公開してくれたことに対する僕なりのアンサーなんです。世界中で盛り上げて欲しいんだろうなって。

もちろんMidjourneyみたいにプロプライエタリーなサービスにして利益を独占するという手段はあったはずだけど、出自がLAIONプロジェクトですよね。LAIONという非営利のコミュニティが集めたものをみんなに還元しようという考えが根本にあったんだろうなというところにリスペクトがあって。

だからお金お金というのを追求するより、AIの力をみんなが利用できるようにしていきたいし、Stable Diffusionに対するリスペクトは失わないようにしていきたいと思っています。GNUやリーナス・トーバルズみたいに、営利企業でありながらも社会性を意識しているものだと思っているんですけど。

▲Memeplexを運営する清水亮さん

ジェリーさんまさにおっしゃる通り、AIの民主化のために頑張りたいですね。Linuxとはちょっと違うのが、モデルを作るコストがすごく高いので、今は無料で提供していますけど、投資家もいるので、売り上げもなんとかしないといけないなと。自分も正直、オープンソースで無料で提供する方が楽しいんですけど、いずれはある企業しか使えないカスタムモデルを作るとか。そうじゃないと売り上げが少くてずっと赤字というのも（笑）

清水さんそれにしてもやはりすごい英断だと思うし、誰もが開けられなかったパンドラの箱をあけてくれた功績はすごく大きいと思うんですよね。LAIONがあって適切な資金があって技術者がいればできることはわかっていた訳じゃないですか。でもその最後のボタンを押す、エイトボールをポケットに入れるということができてなかったし、先にやっていたビッグテックはいろいろなものが作れちゃうからと踏み出せなかった。そこに切り込んでいけたのはすごかったと思いますね。

しょうがないというのもわかって。Googleの場合はAIやらかし案件とかいっぱいあって、それがトラウマになっているから。揉めそうなことは自分からやりたくはないなと思っているだろうし。そこにはスタートアップとしての闘い方があって、その一方でマネタイズの必然性はあるわけですが。

次世代ChatGPT＋プロメテウスとBardの会話AI対決、Googleのイベントが肩透かしだったのはなぜ？（Google特別対策室） | テクノエッジ TechnoEdge

MicrosoftによるChatGPTベース検索の発表に先立って突然のGoogleのBard投入宣言。その後のGoogle AIイベントがスカスカだった理由とは。

https://www.techno-edge.net/article/2023/02/10/855.html続きを読む »

まあMemeplexは完全な赤字で、僕がプログラミングをミスると平気で50万円くらい飛んで行くんで、まあ厳しいサービスではあるんですけど（笑）

ただ、ここでがめつくお金をとって、「AIって結局お金持ちのものだよね」ってなったらつまらない。意地になって、どれだけ無料部分を増やせるかを考えているってとこですかね。

ジェリーさんDreamStudioのAPIを無料提供とか、交渉次第でそこは……。

清水さん実はGPUとか電気代とかは、さくらインターネットが負担してくれているのでいいんですが、フロントエンドですね。GoogleのFirebaseなのでユーザーが来すぎると無茶苦茶お金がかかると（笑）

例えばぼくが運営している銀座のバーでしゃべっている内容をそのまま翻訳して画面に出すというのをやったことがあって、そしたらDeepLの翻訳トランザクションだけで1日50万円いっちゃったという（笑）

ジェリーさんえー！　そんなことが（笑）

Stable Diffusion登場前、世の中は暗かった

清水さんほんとそういう機会があったらぜひ。本当、Stable Diffusionのおかげで世の中ってすごく明るくなりましたよね。ちょっと前はめちゃめちゃ暗かったじゃないですか。

ジェリーさんビッグテックが全てを握っているみたいな。

清水さんLAIONプロジェクトはあったけど、どんなにがんばってもお金がないと解決できないこともあるから、そこを何で応援してあげないんだと。ぼくは当時別の会社の社長をやってましたけど、企業の立場でそういうことをやろうと周りを説得するのはすごく難しいんですよね。リスクが大きすぎる。だから何になるんだ、とか言われる。もしも前の会社でやっていたら、オープンソースのものをプロプライエタリで出すのかとものすごく批判を受けていただろうし、逆にそれをStability AIからオープンソースで出したら株主から刺されていただろうし（笑）　できないですよ。やっぱりあれはすごいと思うよ。

ジェリーさんそうですよね。

清水さんかっこいいし、応援したいと思っているし。DreamStudioにも1万円以上課金してますから（笑）その意味ではみんなでこの業界を盛り上げていけたらと思っています。

ジェリーさんありがとうございます。そうですね。ぜひ盛り上げていきましょう。

清水さん今、拡散（Diffusion）モデルって画像とか音声には使われているけど、言語には行ってないじゃないすか。まだ言語でうまく行ってないからだと思うんですけど、今はたまたまタイミング的にChatGPTとStable Diffusionは一緒に扱われているけど、関係ないというのはどうなのかなというのは他人事ながら思っていて。

ジェリーさん全く関係ないかというと、そうでもなくて、例えばattention（注意機構）を使っているというところとか。

清水さんそれを言ったら今のAI技術はほとんどがそういうことになりますよね。でも、やり方もやっていることも全然違うので。絵を描くことのほうが難しく見えるんだけど、言語の方を喜ぶ人が多かったというのが意外だったなって。

ジェリーさん言葉はもっといろんな人がいろんな場面で使います。ほとんどの仕事、勉強、会話には言語を使うけど、絵は最悪なくても生きていける。画像はエンタメや、意思疎通にも使えるんだけど、言葉は人類の根本的なものなので。だから弊社も大規模言語モデルとチャットボットを作ります。

清水さんそれはすごい。もう動いているんですか？

ジェリーさんStability AIでは最初からさまざまな生成AIに興味があって。ChatGPTの品質においても重要なRLHF（人間のフィードバックによる強化学習）という技術に関連するツールを開発しているCarperAIという研究組織も弊社が支援していて、そこの人も何人か採用したんです。ChatGPTが出た後は非常に話題になって、やはりああいう技術は非常に大事だと反響に感心し、そこを頑張る重要性がさらに高まりました。

――そして、「Stable Chat」を作るとアナウンスしちゃったわけですけど。

日本語に特化した、今までないチャットボット「Stable Chat(日本語版)」を開発します！
世界トップクラスの技術、大規模GPUクラスター、オープンコミュニティの力など… 私たちの強みを生かした透明性の高い最高の大規模言語モデル(LLM)を構築します。
Stability AI日本チームが、グローバルチームと連携して本気で取り組みます。
LLMを活かしたプロダクトやサービスを積極的に開発していきます。
皆様どうぞお楽しみに！

この技術はCarperAIや、大規模言語モデルの動作環境を大幅に縮小するFlexGenといった技術とはどういった関連があるのでしょうか？　Stable Diffusionのように、自分のマシン上で動かすということも想定した作りになっているのでしょうか？

▲FlexGenはVRAM 24GBのRTX 3090でも動作するという

ジェリーさんCarperAIの技術やツールを弊社のチャットボットの開発に活用する予定です。

FlexGenは最近出たばかりの論文なので、どう活かすかをこれから研究しますが、いずれにしてもFlexGenのようなローレベルな（ハードウェアレーヤーでの）最適化手法を使うと訓練や推論の効率が何倍も改善されることもあるので、当然このような手法は検討したいです。

――清水さんはChatGPTとStable Diffusionを使って漫画を作成していて、それがNHKのニュースにも取り上げられていましたよね。

清水さんChatGPTはほとんど役に立たないと自分では思っっているんだけど、唯一うまくできる、嘘をつくことはお話を考えるのうまく使えるから、お話を作ってもらって、そのお話に人間がフォローする形で面白くできるかという実験をやっていて、現在は17話。

でもそれはStable Diffusionがなければやらなかったでしょう。絵がなければ面白くない訳だし。1コマ作るのに100枚くらいStable Diffusionに作成させて、その中からこれかな、というのを選んで行くんです。これだけ高速に作れて、さらにDreamBoothみたいなのでカスタム学習できて初めてAIで漫画ができるようになった。日本ではAI漫画がちょっと流行っていて、できる人は僕よりずっとすごい漫画をAIで描いています。

――日本で最初のStable Diffusionを使ったAI画集の生成には清水さんがMemeplexで協力していたんですよね。その絵師である852話さんもAI漫画ですごいものを描いています。

AIと人間、どちらが描いたかは意味がなくなる。日本初のAI画集（紙）を出すアーティスト、852話さんが考えていること | テクノエッジ TechnoEdge