ChatGPTのAPIを試そうと思って OpenAI アカウント作成したのですが、画像生成がおもしろそうと思ってそちらを試しました。 これが「A sheltie is running around the field」というテキスト(プロンプト)から生成した画像です。(OpenAI の Create Image APIを使用)
DALL·E models による Image generation とは何かはこちら https://platform.openai.com/docs/guides/images/usage に説明があります。 マスク画像を渡すことで、マスクした部分を書き直してくれる機能(Edits)も興味深いですが、今回は単にテキストから画像を生成しただけです。
使い方も簡単でした。 API refernece https://platform.openai.com/docs/api-reference/images/create に書いてある通りです。
うまくいったのは、 冒頭画像は、 「一匹のシェルティが野原を駆け回っている」という日本語を Google 翻訳を使って英語にした 「A sheltie is running around the field」をプロンプトとして渡したものです。
translate-shell を使った trans というコマンド を用意しておけば、 コマンドラインから翻訳できることを知りました。
日本語プロンプト → (trans) → 英語プロンプト → (OpenAI Create Image API) → 画像生成の流れで生成。
英語のプロンプトではなく、日本語プロンプトそのままでうまく画像が生成できるのか試したのですが・・・
プロンプト「一匹のシェルティが野原を駆け回っている」の結果:
このようにうまくいきませんでした。
sheltie の代わりに pokemon でも試したのですが、結果は以下の通り。
ピカチュウっぽい、なぞの生物が生成されました。 著作権に抵触しないような出力になっているのかもしれません(わかりません)。 ポケモンはアニメなので、背景の野原もそれにあわせて実写ではなくイラスト風になっているのは文脈を理解している感があってなんかすごい。
API利用は有料です。5ドルまで無料で使えて、それ以上はクレジットカードを登録して支払いが発生します。 (以前は 18ドルまで無料枠があったようですが、今は 5ドルでした。)
画像を生成するには 1画像あたり 0.016 から 0.020 ドルかかります。画像生成サイズによって値段が変わります。 詳しくは Pricing https://openai.com/pricing ページをご覧ください。 256 x 256 のサイズで 0.016 ドルなので、100枚生成したとして 1.6ドル、130円/ドル で計算すると 200円程度でしょうか。 用途次第ですが、十分安いとは思います。 ただ、期待する画像を出すまでにプロンプト文をあれこれ試行錯誤することを考えると、試すたびに 2円 払っていく感覚はちょっとどうなのかな。
そもそも、単にプロンプトから画像を生成するだけならば、OpenAIはウェブサービスを用意しています。
このウェブサービスでは 15クレジット/月 までは無料で生成できるようです。 ちょっとネットで調べた範囲では、「クレジット」1回で画像生成なら4枚、画像編集なら3枚の処理が可能・・・などの情報がありましたが、詳しくは把握していません。
すごくおもしろいのですが、用途次第でしょうか。 デモ用とかブログのアイキャッチ画像作成目的ならば Stable Diffusion を使った方がいいかな。
これは Stable Diffusion と違って、GPUなしで画像生成できるから、 ウェブサービスなどで有料サービスをつくるには良いと思う。 もちろん、それだけの付加価値を乗せたサービスがつくれたとしての話。
Adobe も Firefly を発表しているし、 マイクロソフトも Bing Image Creator https://blogs.microsoft.com/blog/2023/03/21/create-images-with-your-words-bing-image-creator-comes-to-the-new-bing/ がすでに公開されている。 このAPI料金を払いながら、それらより優れた または それらががカバーしない領域で勝負しなければならないという話。
Stable Diffusion の v2.1 のモデルを利用して「A sheltie is running around the field」から生成した画像がこちら: