Pensez à lire la Charte avant de poster !

$\newcommand{\K}{\mathbf K}$


Les-Mathematiques.net - Cours de mathématiques supérieures
 Les-Mathematiques.net - Cours de mathématiques universitaires - Forum - Cours à télécharger

A lire
Deug/Prépa
Licence
Agrégation
A télécharger
Télécharger
53 personne(s) sur le site en ce moment
E. Cartan
A lire
Articles
Math/Infos
Récréation
A télécharger
Télécharger
Théorème de Cantor-Bernstein
Théo. Sylow
Théo. Ascoli
Théo. Baire
Loi forte grd nbre
Nains magiques
 
 
 
 
 

Elimination d'outliers

Envoyé par Judepaum 
Elimination d'outliers
il y a huit années
Bonjour,

je suis étudiant en master de géologie et, dans le cadre d'un stage en laboratoire, je suis amené à traiter des données (jusque là, tout va bien !). Je vais vous présenter un peu le contexte, ce serra ensuite plus simple d'expliquer mes attentes :

J'ai une 20ène d'échantillons et sur chacun d'eux j'ai une 15ène de mesures de la température maximale subit par l'échantillon. Certaines de ces mesures correspondent à une phase antérieur de chauffe et donc ne m'intéresse pas. Je suis capable de détecter ces points puisqu'ils sont toujours plus chaud que la phase qui m'intéresse. De même, des erreurs d'acquisitions peuvent me donner une température plus basse que la réalité.

Dans un soucis de précision je cherche donc à éliminer ces outliers. Pour le moment j'ai filtré mes données de façon visuelle mais j'aimerais le faire d'une façon un peu plus rigoureuse. Mes recherches pour trouver une façon de détecter statistiquement ces aberrations m'ont conduit vers cet article.

Le hic, c'est que je ne comprends pas vraiment comment appliquer le test de Bol'shev (qui semble correspondre le mieux à mes attentes).

Mes questions sont donc les suivantes :

- Ce test est il pertinent pour ce que je voudrais faire ?
- Si oui où sont les limites de ce test ?
- Comment puis-je appliquer ce test à mes données ? N'étant pas matheux, une explication simple du mode opératoire serrait la bien venue (je me charge ensuite d'en faire un script Matlab pour traiter mes données).

Merci d'avance !

ps : exemple de données sur un échantillon :

447.7477
402.9386
451.5389
431.7085
445.7233
445.2863
443.5713
421.2923
442.9423
498.3987
454.2358
448.3728
414.7108
438.6622
420.9589
433.1339
479.7524
435.5550
419.9318
Re: Elimination d'outliers
il y a huit années
Bonjour.

Je ne suis pas spécialiste de la détection des valeurs aberrantes, mais je sais qu'une détection systématique "à priori" est toujours moins efficace qu'une analyse "de spécialiste". Si je ne me trompe, dans ton échantillon tu vas éliminer la valeur 498.3987 , éventuellement 402.9386 et 479.7524. Tu dois avoir des raisons, et l'idéal serait de les formaliser.
En effet, la difficulté est de séparer les valeurs "rares" des valeurs "indues". Mais une valeur faussée peut parfaitement être dans l'intervalle d'acceptation et une valeur véritable, mais exceptionnelle être rejetée par un outils systématique.
Si ton échantillon est gaussien, les outils classiques des logiciels de statistiques ("R" est libre) devraient être efficaces.

Cordialement.

NB : L'article que tu proposes n'est pas plus facile à lire par la majorité des matheux que par toi.
Re: Elimination d'outliers
il y a huit années
Bonjour
En arrondissant je trouve que la moyenne est 441, l'ect 22.
Donc il y a 2 valeurs n°1 : 488 et la n°10 ; 490 qui sont > 485 = 441 + 22*2
pas de valeur <, les autres sont gaussiennes.
Cordialement
Koniev
Re: Elimination d'outliers
il y a huit années
Merci pour vos réponses.
Ca fait déjà un moment que je me dis qu'il faut que je me mette à R, je crois que c'est la bonne occasion ! Je vais regarder les outils pour les distributions gaussiennes.
Seuls les utilisateurs enregistrés peuvent poster des messages dans ce forum.

Cliquer ici pour vous connecter

Liste des forums - Statistiques du forum

Total
Discussions: 137 942, Messages: 1 337 849, Utilisateurs: 24 647.
Notre dernier utilisateur inscrit inconnu25545.


Ce forum
Discussions: 3 647, Messages: 21 791.

 

 
©Emmanuel Vieillard Baron 01-01-2001
Adresse Mail:

Inscription
Désinscription

Actuellement 16057 abonnés
Qu'est-ce que c'est ?
Taper le mot à rechercher

Mode d'emploi
En vrac

Faites connaître Les-Mathematiques.net à un ami
Curiosités
Participer
Latex et autres....
Collaborateurs
Forum

Nous contacter

Le vote Linux

WWW IMS
Cut the knot
Mac Tutor History...
Number, constant,...
Plouffe's inverter
The Prime page