Empirical Normalization for Quadratic Discriminant Analysis and   Classifying Cancer Subtypes

Mark A. Kon; Nikolay Nikolaev

arXiv:1203.6345·stat.ML·October 30, 2012·ICML

Empirical Normalization for Quadratic Discriminant Analysis and Classifying Cancer Subtypes

Mark A. Kon, Nikolay Nikolaev

PDF

TL;DR

This paper presents Empirical Discriminant Analysis (EDA), a novel method that transforms data into a Gaussian-like space using empirical copulas, improving quadratic discriminant analysis for binary classification, especially in biological datasets.

Contribution

The paper introduces EDA, a new empirical feature mapping technique that enhances quadratic discriminant analysis by approximating Gaussian distributions in data.

Findings

01

Effective in transforming biological data to Gaussian-like distributions

02

Improves classification accuracy with quadratic discriminants

03

Applicable to various datasets in computational biology

Abstract

We introduce a new discriminant analysis method (Empirical Discriminant Analysis or EDA) for binary classification in machine learning. Given a dataset of feature vectors, this method defines an empirical feature map transforming the training and test data into new data with components having Gaussian empirical distributions. This map is an empirical version of the Gaussian copula used in probability and mathematical finance. The purpose is to form a feature mapped dataset as close as possible to Gaussian, after which standard quadratic discriminants can be used for classification. We discuss this method in general, and apply it to some datasets in computational biology.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.