Imputation (statistiques)

En statistique , l'imputation est le processus de remplacement des données manquantes par des valeurs de substitution. Lorsqu'il s'agit de remplacer une donnée entière, on parle d'« imputation unitaire » ; lorsqu'il s'agit de remplacer une composante d'une donnée, on parle d'« imputation d'item ». Les données manquantes posent trois problèmes majeurs : elles peuvent introduire un biais important , complexifier le traitement et l'analyse des données et réduire l' efficacité . Puisque les données manquantes peuvent poser problème pour l'analyse des données, l'imputation est considérée comme un moyen d'éviter les écueils liés à la suppression des observations comportant des valeurs manquantes. En effet, lorsqu'une ou plusieurs valeurs sont manquantes pour une observation, la plupart des logiciels statistiques suppriment par défaut toute observation présentant une valeur manquante, ce qui peut introduire un biais ou affecter la représentativité des résultats. L'imputation préserve toutes les observations en remplaçant les données manquantes par une valeur estimée à partir d'autres informations disponibles. Une fois toutes les valeurs manquantes imputées, l' ensemble de données peut être analysé à l'aide des techniques standard pour données complètes. De nombreuses théories ont été proposées par les scientifiques pour traiter les données manquantes, mais la plupart d'entre elles introduisent un biais. Parmi les méthodes les plus connues pour gérer les données manquantes, on peut citer : l'imputation par hot deck et par cold deck ; la suppression par liste et par paire ; l'imputation par la moyenne ; la factorisation matricielle non négative ; l'imputation par régression ; la dernière observation reportée ; l'imputation stochastique ; et l'imputation multiple .

Suppression par liste (en majuscules et minuscules)

De loin, la méthode la plus courante pour traiter les données manquantes est la suppression des observations incomplètes (ou suppression des observations complètes), qui consiste à supprimer toutes les observations comportant une valeur manquante. Si les données sont manquantes de manière complètement aléatoire , la suppression des observations incomplètes n'introduit aucun biais, mais elle diminue la puissance de l'analyse en réduisant la taille effective de l'échantillon. Par exemple, si 1 000 observations sont collectées, mais que 80 comportent des valeurs manquantes, la taille effective de l'échantillon après suppression des observations incomplètes est de 920. Si les observations ne sont pas manquantes de manière complètement aléatoire, la suppression des observations incomplètes introduit un biais, car le sous-échantillon d'observations représenté par les données manquantes n'est pas représentatif de l'échantillon initial (et si l'échantillon initial était lui-même représentatif d'une population, les observations complètes ne le sont pas non plus). Bien que la suppression des observations incomplètes soit sans biais lorsque les données manquantes le sont de manière complètement aléatoire, c'est rarement le cas en pratique.

L’élimination par paires (ou « analyse des cas disponibles ») consiste à supprimer un cas pour lequel il manque une variable requise pour une analyse particulière, tout en l’incluant dans les analyses où toutes les variables requises sont présentes. Lorsque l’élimination par paires est utilisée, le nombre total d’observations (N) pour l’analyse n’est pas constant d’une estimation à l’autre des paramètres. En raison des valeurs de N incomplètes à certains moments, tout en conservant une comparaison complète des cas pour d’autres paramètres, l’élimination par paires peut conduire à des situations mathématiques impossibles, telles que des corrélations supérieures à 100 %.

Le principal avantage de la suppression complète des occurrences par rapport aux autres méthodes réside dans sa simplicité et sa facilité de mise en œuvre. C'est en grande partie ce qui explique sa popularité, malgré ses nombreux inconvénients, dans la gestion des données manquantes.

imputation unique

Hot-deck

L'imputation par hot-deck, autrefois courante, consistait à remplacer une valeur manquante par une valeur issue d'un enregistrement similaire sélectionné aléatoirement. Le terme « hot-deck » remonte au stockage des données sur cartes perforées et indique que les données manquantes proviennent du même ensemble de données que celles manquantes. La pile de cartes était dite « chaude » car elle était en cours de traitement.

Une forme d'imputation par hot-deck est appelée « dernière observation reportée » (ou LOCF). Elle consiste à trier un ensemble de données selon plusieurs variables, créant ainsi un ensemble ordonné. La technique repère ensuite la première valeur manquante et utilise la valeur de la cellule immédiatement précédente pour l'imputer. Le processus est répété pour chaque cellule contenant une valeur manquante, jusqu'à ce que toutes les valeurs manquantes aient été imputées. Dans le cas fréquent de mesures répétées d'une variable pour une personne ou une autre entité, cette méthode repose sur l'hypothèse que si une mesure est manquante, on peut supposer qu'elle n'a pas changé depuis la dernière mesure. Cette méthode est connue pour accroître le risque de biais et de conclusions erronées. C'est pourquoi l'utilisation de la méthode LOCF est déconseillée.

Couche froide

L'imputation à froid, en revanche, sélectionne les donneurs à partir d'un autre ensemble de données. Grâce aux progrès de la puissance de calcul, des méthodes d'imputation plus sophistiquées ont généralement supplanté les techniques originales d'imputation à chaud aléatoire et triée. Il s'agit d'une méthode permettant de remplacer les réponses manquantes par celles d'items similaires issus d'enquêtes antérieures. Elle est disponible pour les enquêtes mesurant des intervalles de temps.

Substitution moyenne

Une autre technique d'imputation consiste à remplacer toute valeur manquante par la moyenne de la variable correspondante pour toutes les autres observations, ce qui a l'avantage de ne pas modifier la moyenne de l'échantillon pour cette variable. Cependant, l'imputation par la moyenne atténue les corrélations impliquant la ou les variables imputées. En effet, lorsqu'on recourt à l'imputation, il est garanti qu'il n'existe aucune relation entre la variable imputée et les autres variables mesurées. Ainsi, l'imputation par la moyenne présente des avantages pour l'analyse univariée, mais devient problématique pour l'analyse multivariée.

L'imputation par la moyenne peut être effectuée au sein de classes (par exemple, des catégories telles que le genre) et peut être exprimée comme suit : où représente la valeur imputée pour l'enregistrement et la moyenne de l'échantillon des données du répondant au sein d'une classe donnée . Il s'agit d'un cas particulier d'imputation par régression généralisée. ${\displaystyle {\hat {y}}_{i}={\bar {y}}_{h <semantics><mrow><mstyle><msub><mrow><mrow><mover><mi>y</mi><mo>^</mo></mover></mrow></mrow><mrow><mi>je</mi></mrow></msub><mo>=</mo><msub><mrow><mrow><mover><mi>y</mi><mo>¯</mo></mover></mrow></mrow><mrow><mi>h</mi></mrow></msub></mstyle></mrow><annotation>{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}</annotation></semantics></math><img src=$ ${\displaystyle {\hat {y}}_{i <semantics><mrow><mstyle><msub><mrow><mrow><mover><mi>y</mi><mo>^</mo></mover></mrow></mrow><mrow><mi>je</mi></mrow></msub></mstyle></mrow><annotation>{ displaystyle { hat {y}} _ {i}}</annotation></semantics></math><img src=$ ${\displaystyle i <semantics><mrow><mstyle><mi>je</mi></mstyle></mrow><annotation>{\displaystyle i}</annotation></semantics></math><img src=$ ${\displaystyle {\bar {y}}_{h <semantics><mrow><mstyle><msub><mrow><mrow><mover><mi>y</mi><mo>¯</mo></mover></mrow></mrow><mrow><mi>h</mi></mrow></msub></mstyle></mrow><annotation>{\displaystyle {\bar {y}}_{h}}</annotation></semantics></math><img src=$ ${\displaystyle h <semantics><mrow><mstyle><mi>h</mi></mstyle></mrow><annotation>{\displaystyle h}</annotation></semantics></math><img src=$

${\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}b_{rj}z_{mij}+{\hat {e}}_{mi <semantics><mrow><mstyle><msub><mrow><mrow><mover><mi>y</mi><mo>^</mo></mover></mrow></mrow><mrow><mi>m</mi><mi>je</mi></mrow></msub><mo>=</mo><msub><mi>b</mi><mrow><mi>r</mi><mn>0</mn></mrow></msub><mo>+</mo><munder><mo>∑</mo><mrow><mi>j</mi></mrow></munder><msub><mi>b</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><msub><mi>z</mi><mrow><mi>m</mi><mi>je</mi><mi>j</mi></mrow></msub><mo>+</mo><msub><mrow><mrow><mover><mi>e</mi><mo>^</mo></mover></mrow></mrow><mrow><mi>m</mi><mi>je</mi></mrow></msub></mstyle></mrow><annotation>{\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}b_{rj}z_{mij}+{\hat {e}}_{mi}}</annotation></semantics></math><img src=$

Ici, les valeurs sont estimées à partir d'une régression sur des données non imputées, est une variable indicatrice d'appartenance à une classe, et les données sont divisées en répondant ( ) et données manquantes ( ). ${\displaystyle b_{r0},b_{rj <semantics><mrow><mstyle><msub><mi>b</mi><mrow><mi>r</mi><mn>0</mn></mrow></msub><mo>,</mo><msub><mi>b</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub></mstyle></mrow><annotation>{\displaystyle b_{r0},b_{rj}}</annotation></semantics></math><img src=$ ${\displaystyle y <semantics><mrow><mstyle><mi>y</mi></mstyle></mrow><annotation>{\displaystyle y}</annotation></semantics></math><img src=$ ${\displaystyle x <semantics><mrow><mstyle><mi>x</mi></mstyle></mrow><annotation>{\displaystyle x}</annotation></semantics></math><img src=$ ${\displaystyle z <semantics><mrow><mstyle><mi>z</mi></mstyle></mrow><annotation>{\displaystyle z}</annotation></semantics></math><img src=$ ${\displaystyle r <semantics><mrow><mstyle><mi>r</mi></mstyle></mrow><annotation>{\displaystyle r}</annotation></semantics></math><img src=$ ${\displaystyle m <semantics><mrow><mstyle><mi>m</mi></mstyle></mrow><annotation>{\displaystyle m}</annotation></semantics></math><img src=$

Factorisation de matrices non négatives

La factorisation matricielle non négative (NMF) permet de traiter les données manquantes tout en minimisant sa fonction de coût, au lieu de les remplacer par des zéros susceptibles d'introduire des biais . Ceci en fait une méthode mathématiquement validée pour l'imputation de données. La NMF peut ignorer les données manquantes dans la fonction de coût, et leur impact peut se limiter à un effet de second ordre.

Régression

L'imputation par régression présente le problème inverse de l'imputation par la moyenne. Un modèle de régression est estimé pour prédire les valeurs observées d'une variable à partir d'autres variables, et ce modèle est ensuite utilisé pour imputer les valeurs manquantes. Autrement dit, les informations disponibles pour les cas complets et incomplets servent à prédire la valeur d'une variable spécifique. Les valeurs estimées par le modèle de régression sont ensuite utilisées pour imputer les valeurs manquantes. Le problème est que les données imputées ne comportent pas de terme d'erreur dans leur estimation ; les estimations s'ajustent donc parfaitement à la droite de régression sans variance résiduelle . Cela conduit à une suridentification des relations et suggère une précision des valeurs imputées supérieure à la réalité. Le modèle de régression prédit la valeur la plus probable des données manquantes, mais ne fournit aucune information sur l'incertitude associée à cette valeur.

La régression stochastique a permis de corriger avec un certain succès l'absence de terme d'erreur dans l'imputation par régression, en ajoutant la variance moyenne de la régression aux imputations pour introduire une erreur. La régression stochastique présente un biais bien moindre que les techniques mentionnées précédemment, mais elle ne répond pas à une exigence fondamentale : intuitivement, si des données sont imputées, il semblerait nécessaire d'introduire davantage de bruit que la simple variance résiduelle.

imputation multiple

Afin de remédier au problème de l'augmentation du bruit due à l'imputation, Rubin (1987) a développé une méthode permettant de faire la moyenne des résultats sur plusieurs ensembles de données imputées. Toutes les méthodes d'imputation multiple suivent trois étapes.

Imputation – Similaire à l'imputation simple, cette méthode consiste à imputer les valeurs manquantes. Cependant, au lieu d'une seule imputation, les valeurs imputées sont tirées m fois d'une distribution. À la fin de cette étape, on obtient m jeux de données complets.
Analyse – Chacun des m jeux de données est analysé. À la fin de cette étape, il devrait y avoir m analyses.
Mise en commun – Les m résultats sont consolidés en un seul résultat en calculant la moyenne, la variance et l’intervalle de confiance de la variable concernée ou en combinant les simulations de chaque modèle distinct.

L'imputation multiple peut être utilisée lorsque les données sont manquantes de manière complètement aléatoire , aléatoire ou non aléatoire , bien qu'elle puisse présenter un biais dans ce dernier cas . Une approche consiste en l'imputation multiple par équations chaînées (MICE), également appelée « spécification entièrement conditionnelle » ou « imputation multiple par régression séquentielle » . MICE est conçue pour les données manquantes de manière aléatoire, mais des simulations suggèrent qu'avec un nombre suffisant de variables auxiliaires, elle peut également fonctionner avec des données manquantes de manière non aléatoire. Cependant, les performances de MICE peuvent être compromises lorsque le nombre d'observations est important et que les données présentent des caractéristiques complexes, telles que des non-linéarités et une forte dimensionnalité.

Les approches plus récentes d'imputation multiple utilisent des techniques d'apprentissage automatique pour améliorer leurs performances. MIDAS (Multiple Imputation with Denoising Autoencoders), par exemple, utilise des auto-encodeurs débruiteurs , un type de réseau neuronal non supervisé, pour apprendre des représentations latentes fines des données observées. Il a été démontré que MIDAS offre des avantages en termes de précision et d'efficacité par rapport aux stratégies d'imputation multiple traditionnelles.

Comme évoqué dans la section précédente, l'imputation simple ne tient pas compte de l'incertitude liée aux imputations. Après imputation, les données sont traitées comme s'il s'agissait des valeurs réelles. Négliger cette incertitude peut conduire à des résultats trop précis et à des erreurs de conclusion. L'imputation multiple, en procédant à des imputations multiples, prend en compte l'incertitude et l'étendue des valeurs possibles de la valeur réelle. Comme prévu, la combinaison de l'estimation de l'incertitude et de l'apprentissage profond pour l'imputation figure parmi les meilleures stratégies et a été utilisée pour modéliser des données hétérogènes issues de la découverte de médicaments .

De plus, bien que l'imputation simple et l'imputation sur données complètes soient plus faciles à mettre en œuvre, l'imputation multiple n'est pas très difficile à réaliser. De nombreux packages statistiques, disponibles dans différents logiciels, permettent d'effectuer facilement des imputations multiples. Par exemple, le package MICE permet aux utilisateurs de R d'effectuer des imputations multiples à l'aide de la méthode MICE. MIDAS peut être implémenté dans R avec le package rMIDAS et dans Python avec le package MIDASpy.