EditSplat: Multi-View Fusion and Attention-Guided Optimization for   View-Consistent 3D Scene Editing with 3D Gaussian Splatting

Dong In Lee; Hyeongcheol Park; Jiyoung Seo; Eunbyung Park; Hyunje; Park; Ha Dam Baek; Sangheon Shin; Sangmin Kim; Sangpil Kim

arXiv:2412.11520·cs.CV·April 21, 2025

EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting

Dong In Lee, Hyeongcheol Park, Jiyoung Seo, Eunbyung Park, Hyunje, Park, Ha Dam Baek, Sangheon Shin, Sangmin Kim, Sangpil Kim

PDF

Open Access

TL;DR

EditSplat introduces a novel framework for text-driven 3D scene editing that ensures multi-view consistency and efficient optimization by integrating multi-view fusion guidance and attention-guided trimming, advancing the quality and speed of 3D editing.

Contribution

The paper presents a new method combining multi-view fusion and attention-guided pruning to improve multi-view consistency and optimization efficiency in text-driven 3D scene editing.

Findings

01

Achieves state-of-the-art results in 3D scene editing quality.

02

Enhances multi-view consistency in 3D editing.

03

Improves optimization speed and precision.

Abstract

Recent advancements in 3D editing have highlighted the potential of text-driven methods in real-time, user-friendly AR/VR applications. However, current methods rely on 2D diffusion models without adequately considering multi-view information, resulting in multi-view inconsistency. While 3D Gaussian Splatting (3DGS) significantly improves rendering quality and speed, its 3D editing process encounters difficulties with inefficient optimization, as pre-trained Gaussians retain excessive source information, hindering optimization. To address these limitations, we propose EditSplat, a novel text-driven 3D scene editing framework that integrates Multi-view Fusion Guidance (MFG) and Attention-Guided Trimming (AGT). Our MFG ensures multi-view consistency by incorporating essential multi-view information into the diffusion process, leveraging classifier-free guidance from the text-to-image…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAdvanced Vision and Imaging · 3D Surveying and Cultural Heritage · Remote Sensing and LiDAR Applications

MethodsDiffusion