DiffSim: Taming Diffusion Models for Evaluating Visual Similarity

Yiren Song; Xiaokang Liu; Mike Zheng Shou

arXiv:2412.14580·cs.CV·December 20, 2024

DiffSim: Taming Diffusion Models for Evaluating Visual Similarity

Yiren Song, Xiaokang Liu, Mike Zheng Shou

PDF

Open Access 1 Repo

TL;DR

DiffSim leverages pretrained diffusion models to evaluate visual similarity more effectively than traditional metrics, capturing semantic, style, and appearance details aligned with human perception.

Contribution

This paper introduces DiffSim, a novel method using diffusion models for measuring visual similarity, addressing limitations of existing metrics in capturing perceptual and semantic details.

Findings

01

DiffSim outperforms traditional metrics in aligning with human visual preferences.

02

Introduction of Sref and IP benchmarks for style and instance similarity evaluation.

03

DiffSim achieves state-of-the-art results across multiple visual similarity benchmarks.

Abstract

Diffusion models have fundamentally transformed the field of generative models, making the assessment of similarity between customized model outputs and reference inputs critically important. However, traditional perceptual similarity metrics operate primarily at the pixel and patch levels, comparing low-level colors and textures but failing to capture mid-level similarities and differences in image layout, object pose, and semantic content. Contrastive learning-based CLIP and self-supervised learning-based DINO are often used to measure semantic similarity, but they highly compress image features, inadequately assessing appearance details. This paper is the first to discover that pretrained diffusion models can be utilized for measuring visual similarity and introduces the DiffSim method, addressing the limitations of traditional metrics in capturing perceptual consistency in custom…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

showlab/diffsim
pytorchOfficial

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsImage Retrieval and Classification Techniques · Advanced Image and Video Retrieval Techniques · Multimodal Machine Learning Applications

MethodsLinear Layer · Multi-Head Attention · Residual Connection · Layer Normalization · Concatenated Skip Connection · Softmax · *Communicated@Fast*How Do I Communicate to Expedia? · Attention Is All You Need · Dense Connections · Max Pooling