Elimination d'outliers

Bonjour,

je suis étudiant en master de géologie et, dans le cadre d'un stage en laboratoire, je suis amené à traiter des données (jusque là, tout va bien !). Je vais vous présenter un peu le contexte, ce serra ensuite plus simple d'expliquer mes attentes :

J'ai une 20ène d'échantillons et sur chacun d'eux j'ai une 15ène de mesures de la température maximale subit par l'échantillon. Certaines de ces mesures correspondent à une phase antérieur de chauffe et donc ne m'intéresse pas. Je suis capable de détecter ces points puisqu'ils sont toujours plus chaud que la phase qui m'intéresse. De même, des erreurs d'acquisitions peuvent me donner une température plus basse que la réalité.

Dans un soucis de précision je cherche donc à éliminer ces outliers. Pour le moment j'ai filtré mes données de façon visuelle mais j'aimerais le faire d'une façon un peu plus rigoureuse. Mes recherches pour trouver une façon de détecter statistiquement ces aberrations m'ont conduit vers cet article.

Le hic, c'est que je ne comprends pas vraiment comment appliquer le test de Bol'shev (qui semble correspondre le mieux à mes attentes).

Mes questions sont donc les suivantes :

- Ce test est il pertinent pour ce que je voudrais faire ?
- Si oui où sont les limites de ce test ?
- Comment puis-je appliquer ce test à mes données ? N'étant pas matheux, une explication simple du mode opératoire serrait la bien venue (je me charge ensuite d'en faire un script Matlab pour traiter mes données).

Merci d'avance !

ps : exemple de données sur un échantillon :

447.7477
402.9386
451.5389
431.7085
445.7233
445.2863
443.5713
421.2923
442.9423
498.3987
454.2358
448.3728
414.7108
438.6622
420.9589
433.1339
479.7524
435.5550
419.9318

Réponses

  • Bonjour.

    Je ne suis pas spécialiste de la détection des valeurs aberrantes, mais je sais qu'une détection systématique "à priori" est toujours moins efficace qu'une analyse "de spécialiste". Si je ne me trompe, dans ton échantillon tu vas éliminer la valeur 498.3987 , éventuellement 402.9386 et 479.7524. Tu dois avoir des raisons, et l'idéal serait de les formaliser.
    En effet, la difficulté est de séparer les valeurs "rares" des valeurs "indues". Mais une valeur faussée peut parfaitement être dans l'intervalle d'acceptation et une valeur véritable, mais exceptionnelle être rejetée par un outils systématique.
    Si ton échantillon est gaussien, les outils classiques des logiciels de statistiques ("R" est libre) devraient être efficaces.

    Cordialement.

    NB : L'article que tu proposes n'est pas plus facile à lire par la majorité des matheux que par toi.
  • Bonjour
    En arrondissant je trouve que la moyenne est 441, l'ect 22.
    Donc il y a 2 valeurs n°1 : 488 et la n°10 ; 490 qui sont > 485 = 441 + 22*2
    pas de valeur <, les autres sont gaussiennes.
    Cordialement
    Koniev
  • Merci pour vos réponses.
    Ca fait déjà un moment que je me dis qu'il faut que je me mette à R, je crois que c'est la bonne occasion ! Je vais regarder les outils pour les distributions gaussiennes.
Connectez-vous ou Inscrivez-vous pour répondre.