◼︎書誌情報
大坂洋豊, 鈴木雅大, 松尾豊
パーソナライズ画像生成における参照画像の複製効果の定量的評価と改善
◼︎概要
本稿では,追加学習を必要としない Tuning-Free なパーソナライズ画像生成モデルにおいて,参照画像の情報が過剰に再現される「複製効果」に着目し,その定量評価と抑制手法を提案する.最新の大規模視覚言語モデルを用いて生成画像と参照画像の類似度を測定する「Replication Rate」という指標を導入し,さらに,顔領域の過度な一致を防ぐ Face Separation Loss と,多角度回転による特徴量平均化を用いて本質的なアイデンティティを抽出する Essential Loss を提案する.実験の結果,両手法は複製効果を低減しつつ,被写体の主要特徴を保持する効果が示されたが,テキスト指示の反映に若干のトレードオフがあることも明らかとなった.また,評価指標の多角的検討,ハイパーパラメータの最適化,LoRA 等の微調整手法の適用や他の Tuning-Free 手法への拡張可能性についても議論する.本手法は Tuning-Free モデルの柔軟性と応用範囲の拡大に有望なアプローチを提供する.
