Webサイトを公開しました!
- burstlime
- 2022年10月22日
- 読了時間: 3分
どうも、Picgenを開発している「BurstLime」と申します。
Picgenを作った経緯
唐突ですが今回はPicgenを開発したきっかけについてお話します。
画像生成AIに触れるきっかけとなったのがMidjourneyというAI画家がTwitterを見ていると話題になっていて試してみたのがきっかけでした。
MidjourneyはDiscordを使用し、簡単なコマンドを打つだけで生成することができるという誰でも画像生成AIに触れやすいツールで僕もいっぱい楽しませてもらいました。
そのMidjourneyが話題になってから少し経った後、Twitterを見ていると画像生成AIがオープンソース化したというTLが回ってきました。「おっ!これは試してみるしか無い!!」と思い、少ししか経験がないPythonをインストールし、オープンソース化された画像生成AIのStable Diffusionを使用して画像生成しました。
今となってはこれがとっても革命的なことだったと自覚しています。
Stable Diffusionで色々生成しているうちに、Midjourneyのことを思い出しました。
Discordで簡単に生成できるようにすれば、すごく便利になるんじゃないかと。
このときは特に一般公開するつもりもなく、ただただ個人的に利用する上で利便性を高めるために開発しました。これがPicgenの始まりです。
ただし、Stable Diffusionで生成している間はパソコンが重くなってしまうため、次第に生成頻度が減っていきました。プラスで、Stable Diffusionは二次元のキャラの描画が圧倒的に苦手であり、得意とするのは写実的でリアル感の強い画像でした。
それから少し時が流れ、ERNIE-ViLGという中国の大手IT「Baidu」が開発した二次元キャラに強い画像生成AIが話題になりました。これに興味を示し、ERNIE-ViLGをPicgenに追加しました。ですが、ERNIE-ViLGは数週間でブームが過ぎ、Stable Diffusionから派生されたWaifu DiffusionやTrinArtが話題になりました。これらは二次元キャラを主体として学習させたモデルデータであり、すごく綺麗にキャラを描写することができて革新的でした。
またまたしばらく期間が空いて、流行で主流のNovelAi Diffusionが流行り始めました。NovelAIはひと目見ただけではAIとは判別できない絵を生成することができます。
このように画像生成AIは短期間で急速な発展を遂げてきました。
それなのに何故、PicgenはERNIE-ViLGを使用しているのかという疑問が残ると思います。
それは単純な理由で、画像生成AIを満足に動かせるサーバーが無いからです!!
なら、ERNIE-ViLGは何故動かすことができるのか...と疑問に思う方が多いと思います。
それはですね、なんとERNIE-ViLGは自分の環境で画像生成をするのではなく、APIでプロンプトを送信すれば、画像が返ってくるという仕組みなのです。これを使用することでPicgenは無料かつ無制限の生成が実現できているのです。
ただし、これには少々欠点があります。まず、画像生成に時間がかかってしまうことです。これはまあ仕方がないんじゃないでしょうか...。画像生成してくれるだけでありがたいですからね。次に、中国産であるため特定のワードが規制されています。想像はできますよね...
ですが、欠点ばかりではありません!!
このERNIE-ViLGにはスタイルという唯一無二の機能(多分)があるのです。
この機能により、より詳細にイメージしているものに近づけることができます。ドット絵が作りたいときは「ピクセル」を選んだりと、あったらすごく便利な機能となっています。
最後に
ここまで長々と話してしまいましたが、Picgenの経緯は分かっていただけただろうと思います。というより、画像生成AIの歴史の方がよくわかったと思います(笑)
それと1点だけ言っておきたいことがあります。
Python初心者が作ったBOTなので不具合が多発するかもということです!!
ですので、温かい目で見ていただけると助かります。
この記事を書いていて、久しぶりにTrinArtのことを調べてみたら、なんと約1920万枚で学習されたモデルデータがオープンソース化したらしいです!
興味のある人はこの機会に是非試してみてはいかがでしょうか!!
Comments