STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability

Guanghui Wang; Jinze Yu; Xing Zhang; Dayuan Jiang; Yin Song; Tomal Deb; Xuefeng Liu; Peiyang He

arXiv:2512.23712·cs.CL·January 1, 2026

STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability

Guanghui Wang, Jinze Yu, Xing Zhang, Dayuan Jiang, Yin Song, Tomal Deb, Xuefeng Liu, Peiyang He

PDF

Open Access

TL;DR

This paper introduces STED, a new similarity metric, and a consistency scoring framework to evaluate and improve the reliability of structured outputs generated by large language models, with practical applications in model selection and prompt tuning.

Contribution

The paper presents a novel similarity metric, STED, and a comprehensive framework for assessing and enhancing LLM output consistency, supported by extensive experiments and practical use cases.

Findings

01

STED outperforms existing metrics in semantic and structural similarity evaluation.

02

Significant variation in model consistency observed across different LLMs.

03

Framework enables targeted model selection and prompt refinement for reliable structured data generation.

Abstract

Large Language Models (LLMs) are increasingly deployed for structured data generation, yet output consistency remains critical for production applications. We introduce a comprehensive framework for evaluating and improving consistency in LLM-generated structured outputs. Our approach combines: (1) STED (Semantic Tree Edit Distance), a novel similarity metric balancing semantic flexibility with structural strictness when comparing JSON outputs, and (2) a consistency scoring framework aggregating multiple STED measurements across repeated generations to quantify reliability. Through systematic experiments on synthetic datasets with controlled schema, expression, and semantic variations, we demonstrate STED achieves superior performance ( $0.86 - 0.90$ similarity for semantic equivalents, $0.0$ for structural breaks) compared to existing metrics including TED, BERTScore, and DeepDiff.…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAdversarial Robustness in Machine Learning · Topic Modeling · Explainable Artificial Intelligence (XAI)