EstLLM: Enhancing Estonian Capabilities in Multilingual LLMs via Continued Pretraining and Post-Training

Aleksei Dorkin; Taido Purason; Emil Kalbaliyev; Hele-Andra Kuulmets; Marii Ojastu; Mark Fi\v{s}el; Tanel Alum\"ae; Eleri Aedmaa; Krister Kruusmaa; Kairit Sirts

arXiv:2603.02041·cs.CL·March 3, 2026

EstLLM: Enhancing Estonian Capabilities in Multilingual LLMs via Continued Pretraining and Post-Training

Aleksei Dorkin, Taido Purason, Emil Kalbaliyev, Hele-Andra Kuulmets, Marii Ojastu, Mark Fi\v{s}el, Tanel Alum\"ae, Eleri Aedmaa, Krister Kruusmaa, Kairit Sirts

PDF

Open Access 7 Models

TL;DR

This paper demonstrates that continued pretraining and post-training alignment can significantly improve Estonian language capabilities in a multilingual LLM without sacrificing English performance.

Contribution

It introduces a method combining CPT and post-training alignment to enhance Estonian skills in a multilingual LLM while maintaining overall performance.

Findings

01

Significant improvements in Estonian linguistic competence and reasoning.

02

Enhanced translation quality and instruction-following in Estonian.

03

Maintained competitive performance on English benchmarks.

Abstract

Large language models (LLMs) are predominantly trained on English-centric data, resulting in uneven performance for smaller languages. We study whether continued pretraining (CPT) can substantially improve Estonian capabilities in a pretrained multilingual LLM while preserving its English and general reasoning performance. Using Llama 3.1 8B as the main base model, we perform CPT on a mixture that increases Estonian exposure while approximating the original training distribution through English replay and the inclusion of code, mathematics, and instruction-like data. We subsequently apply supervised fine-tuning, preference optimization, and chat vector merging to introduce robust instruction-following behavior. Evaluation on a comprehensive suite of Estonian benchmarks shows consistent gains in linguistic competence, knowledge, reasoning, translation quality, and instruction-following…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsNatural Language Processing Techniques · Topic Modeling · Big Data and Digital Economy