Alchemist: Turning Public Text-to-Image Data into Generative Gold

Valerii Startsev; Alexander Ustyuzhanin; Alexey Kirillov; Dmitry Baranchuk; Sergey Kastryulin

arXiv:2505.19297·cs.CV·March 9, 2026

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin

PDF

Open Access 1 Datasets 1 Video

TL;DR

This paper presents Alchemist, a new method for creating high-quality, general-purpose text-to-image fine-tuning datasets using generative models, significantly enhancing model quality while maintaining diversity.

Contribution

We introduce a novel approach leveraging pre-trained generative models to curate impactful fine-tuning datasets, and release Alchemist, a compact dataset that improves T2I model performance.

Findings

01

Alchemist improves generative quality across five public T2I models.

02

The dataset maintains diversity and style in generated images.

03

Fine-tuned models' weights are publicly released.

Abstract

Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

yandex/alchemist
dataset· 111 dl
111 dl

Videos

Alchemist: Turning Public Text-to-Image Data into Generative Gold· slideslive

Taxonomy

TopicsElectron and X-Ray Spectroscopy Techniques · Machine Learning in Materials Science · Research Data Management Practices

MethodsShrink and Fine-Tune