研究事例紹介
手元の画像と似たスタイルに画像を変換できる画像生成AIを探したい
この研究では、すでに公開されている画像生成AIの中から、自分が望んでいる画風への変換に使えそうなものを発見する方法について提案しています。 1枚の、自分が欲しい画風の画像を入力すると、その画風に画像を変換できそうな順に、生成AIをランキングして出力します。
最近の画像生成AIの発展速度はすさまじく、まだ画像生成AIが開発・公開されて数年しか経っていないにもかかわらず、多くの人が勝手に追加学習したモデル(LoRAモデル)を公開し、共有するようになってきています。 このような状況下で、「自分ではAIを学習したくはないけれど、こんなスタイルの画像が欲しい」という一般利用者や、「自分と近い画風を生成できてしまうようなAIがあるのでは?」と心配するアーティストの人が増えています。
そこで、この研究では、1枚の画像を入力としてシステムに与えると、それと似た画風の画像変換を行えるAIモデルを検索するための方法を提案しています。
従来、「画像の類似度」というと、一般的にはその画像に映ったメインの被写体が一致しているかどうかで判断することがほとんどです。 今回のように、「与えられた画像の持つ画風と、似た画風かどうか」を判別するためには、特別な画像の類似度の計算が必要です。 この研究では、「Triplet Network」という特殊なニューラルネットワークに、「違う画像生成AIによって描かれた同じ被写体の写った画像」と「同じ画像生成AIによって描かれた違う被写体の写った画像」を学習させました。 そして、写っているものが何であるかに左右されず、画風やスタイルの類似度を計算できるようにしました。 こうすることで、入力した画像といちばん近いスタイルの画像を生成しそうなAIを探すことができます。
実際の実装手順としては、
- データセットの構築: 多様なサンプル画像を用意し、それらをさまざまなLoRAモデルでスタイル変換
- スタイル距離の学習: Triplet Network(Siameseネットワークを拡張したもの)を使用し、同じモデルで変換された画像同士の距離を小さく、異なるモデルで変換された画像の距離を大きくするよう学習
- 検索アルゴリズム: 入力画像と参照画像とのスタイル距離を計算し、LoRAモデルをランキング
ということをやっています。
実験では、自動評価とユーザー評価を通じて提案手法を検証しました。 その結果、このアルゴリズムは、入力画像と同じスタイルを再現できるモデルを高い精度で特定できることが示されました。 また、サンプル画像の多様性やモデルの微調整が精度向上に重要であることも確認されました。
「同じ画風だけど、違う題材」の画像同士の類似度が測れれば、「こんな画風を生成するAI」を発見可能
文献情報
- タイトル:
- Image-Generation AI Model Retrieval by Contrastive Learning-based Style Distance Calculation
- 著者:
- Vu Thi Ngoc Anh, Yoshiyuki Shoji , Yuma Oe, Huu Long Pham, Hiroaki Ohshima
- 書誌情報:
- Proc. of The 31st International Conference on Multimedia Modeling (MMM 2025), pp. 101 – 114, 2024
- 掲載サイト