Tables statistiques
Bonjour,
Je suis ingé mécanicien et je m'arrache les cheveux (le mot est faible) sur des tables statistiques permettant d'estimer la valeur minimale d'une population (de moyenne et d'écart type inconnus) en fonction d'un échantillon de n éprouvettes (de moyenne m et d'écart type non biaisé s), et ce avec une probabilité de non rupture (ie tel que la valeur d'un échantillon soit supérieure à cette valeur mini) et un indice de confiance donnés.
Je parle de non rupture car l'échantillon est un ensemble d'éprouvette de traction et la valeur mini recherchée la résistance à rupture du matériaux qu'on veut utiliser pour dimensionner une pièce métallique.
Ces tables donne des valeurs K pour une probabilité de non-rupture, un indice de confiance et un nombre d'éprouvettes testés, qui permet de calculer la valeur mini par Xmin=m - K.s
Avant de poster, j'ai creusé la question et réussi (ô joie) à trouver quelques billes :
- utilisation de la loi de Student pour estimer un intervalle 1 contenant la moyenne de la population, à un indice de confiance donné
- utilisation de la loi du Chi 2 pour estimer un intervalle 2 contenant l'écart type de la population, avec le même indice de confiance.
Connaissant les bornes de ces intervalles, et malgré un mal de tronche avancé, je me suis dis que pour générer ces fameuses tables, il suffisait que je considère une loi normale :
- de moyenne la borne inf de l'intervalle 1
- d'écart type la borne sup de l'intervalle 2
et de chercher la valeur correspondant à une probabilité de non rupture donnée.
Et ça marche pas....j'ai fais une feuille Excel que je peux envoyer si ça peut aider (mais elle est à mon boulot....et oui, ça me turlupine tellement que j'écris tout ça de chez moi!)
Merci par avance
Florian
Je suis ingé mécanicien et je m'arrache les cheveux (le mot est faible) sur des tables statistiques permettant d'estimer la valeur minimale d'une population (de moyenne et d'écart type inconnus) en fonction d'un échantillon de n éprouvettes (de moyenne m et d'écart type non biaisé s), et ce avec une probabilité de non rupture (ie tel que la valeur d'un échantillon soit supérieure à cette valeur mini) et un indice de confiance donnés.
Je parle de non rupture car l'échantillon est un ensemble d'éprouvette de traction et la valeur mini recherchée la résistance à rupture du matériaux qu'on veut utiliser pour dimensionner une pièce métallique.
Ces tables donne des valeurs K pour une probabilité de non-rupture, un indice de confiance et un nombre d'éprouvettes testés, qui permet de calculer la valeur mini par Xmin=m - K.s
Avant de poster, j'ai creusé la question et réussi (ô joie) à trouver quelques billes :
- utilisation de la loi de Student pour estimer un intervalle 1 contenant la moyenne de la population, à un indice de confiance donné
- utilisation de la loi du Chi 2 pour estimer un intervalle 2 contenant l'écart type de la population, avec le même indice de confiance.
Connaissant les bornes de ces intervalles, et malgré un mal de tronche avancé, je me suis dis que pour générer ces fameuses tables, il suffisait que je considère une loi normale :
- de moyenne la borne inf de l'intervalle 1
- d'écart type la borne sup de l'intervalle 2
et de chercher la valeur correspondant à une probabilité de non rupture donnée.
Et ça marche pas....j'ai fais une feuille Excel que je peux envoyer si ça peut aider (mais elle est à mon boulot....et oui, ça me turlupine tellement que j'écris tout ça de chez moi!)
Merci par avance
Florian
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
On ne peut malheureusement pas éditer un post et je crains de devoir laisser à la postérité ces quelques lignes de bien piètre qualité...:-(
Je laisse ça à votre sagacité mathématique, la mienne étant dépassée, et vous remercie par avance de votre aide!!
Florian
C'est normal, ce n'est probablement pas la démarche statistique suivie par les auteurs de la table. Prendre le "plus mauvais cas" de deux estimations pour obtenir un résultat donne toujours une valeur très loin de la réalité statistique : Il est généralement peu probable qu'on soit simultanément dans les deux cas.
Pour pouvoir t'aider, il me faudrait quelques précisions sur le modèle utilisé. Les règles que tu rappelles dans ton premier message correspondent à un modèle gaussien (donc dispersion gaussienne des valeurs autour de la moyenne, ou n très grand). Dans ce cas, la répartition des valeurs de la moyenne de l'échantillon peut être estimée par une loi Normale, ou, si l'on ne connaît pas l'écart type, une loi de Student qui utilise l'estimateur s de l'écart type (mais ça ne nécessite pas un intervalle de confiance sur $\sigma$).
Pour aller plus loin, j'ai besoin de savoir ce qu'est exactement ce K (k dans la table ?), et comment tu détermines le nombre d'éprouvettes (on utilisera plutôt "éprouvette" que échantillon qui a un sens technique précis en statistiques; ici c'est l'ensemble des éprouvettes testées.
Cordialement.
NB : Puisque tu es inscrit, tu peux éditer tes propres messages avec le "modifier le message" qui apparaît en bas.
Vi justement, c'est bien cette démarche que je cherche à retrouver:)
Si je résume la méthode avec des termes mécaniques :
1) pour un matériaux métallique donné, la résistance à rupture Rm suit une loi normale de moyenne mo et d'écart type so inconnu
2) si on les connaissait, la valeur de résistance mini à une probabilité donnée serait Rm mini = mo - k(p).so où k(p) est calculé grâce à une fonction normale inverse. ex : Rm mini mo - 1.so correspond à 15.87% de probabilité que Rm soit inférieur à Rm mini, et mo-3.so correspond à 0.13% de probabilité.
3) en pratique, on ne peut tester qu'un nombre fini d'éprouvettes (un échantillon dont la taille est définie par les cordons de la bourse et pas par choix personnel), dont on peut déterminer une moyenne m et un écart type s, qui bien sur vont changer d'un échantillon à l'autre. L'idée sous-jacente de l'auteur des tables est de déterminer un facteur K permettant de calculer Rm mini = m - K.s (au lieu de mo - k.so), où K va dépendre d'une probabilité (que Rm soit inférieur à Rm mini), d'un indice de confiance (que l'échantillon soit représentatif de la population), et du nombre d'éprouvettes utilisées dans cet échantillon. D'où ces tables à 3 entrées (p barre = probabilité; gamma = confiance; n = nbre d'éprouvettes)
4) J'ai essayé des combinaisons autres que "moyenne mini + écart type maxi" mais sans succès. Je suis d'accord avec toi que c'est assez sévère, mais ça ne me choque pas pour une application aéronautique, ce qui est mon cas.
Pour info, ces tables sont extraites d'un document ASTM (American society for testing and materials) qui s'intitule "A guide for fatigue testing and the statistical analysis of fatigue data". De fait, l'approche ci-dessus est également applicable en fatigue en remplaçant Rm par le logarithme décimal de la durée de vie.
Voilà, je ne vois pas quoi dire de plus. J'espère que ces explications éclaireront ma problématique.
En fait, ton $R_{mini}$ est la borne inférieure d'un intervalle de tolérance probabiliste. Comme on ne le connaît pas, on va le remplacer par un intervalle de confiance. Le plus probable est que l'intervalle de confiance est celui qu'on obtient classiquement avec la loi de Student :
$[m - t \frac {s}{\sqrt n} ; m + t \frac {s}{\sqrt n}] $
où $s^2$ est l'estimateur de la variance de la population à partir de l'échantillon et $ t$ est la valeur donnée par le table de Student pour un intervalle de confiance $\bar p$ : La probabilité que X (variable de Student à n-1 degrés de liberté) soit inférieure à t est $\frac{1+\bar p } 2$.
Donc le K probable est $K = t \frac {1}{\sqrt n}$. Il peut y avoir une différence si le s est en fait l'écart type $\sigma_e$ de l'échantillon ($\displaystyle \sigma_e = \frac{\sum {(x_i-m)^2}} n$) au lieu de l'écart type d'échantillon ($\displaystyle s = \frac{\sum {(x_i-m)^2}} {n-1}$). Il suffira de corriger la formule.
les valeur de t sont données par les tableurs. Pour vérification, pour n=10 et $\bar p=0,95$, on a t=2,26 (1,96 si on connaissait l'écart type de la population, son estimation à l'aide de s élargit l'intervalle de confiance).
Cordialement.
Je ne parle pas latin, mais si c'était le cas je crois bien que je le perdrais sur le champs:-(
Si tu as d'autres idées, je reste preneur.
Note :j'ai commandé le bouquin de l'ASTM, peut-être y trouverais je des infos complémentaires. Si je trouve, promis, je renvoie l'ascenseur!!!
j'ai zappé cette notion de "probabilité de non-rupture". Mais il est vrai qu'elle n'apparaît nulle part dans ton avant dernier message, donc que je ne sais pas en quoi elle intervient. C'est peut-être là qu'est la clé du problème. car je n'ai toujours pas l'explication de l'usage de la table (tu n'as pas fait intervenir la "non-rupture" dans tes explications).
Cordialement.
Sur l'utilisation des valeurs K, ben, je ne sais pas quoi dire de plus que le point 3) de mon précédent message.
Je pense que l'idée de l'auteur est que, si je considère x échantillons de n éprouvettes testées, je peux à chaque fois calculer une valeur moyenne et une valeur mini de Rm (pour une probabilité donnée que le Rm d'une éprouvette de l'échantillon dépasse cette valeur mini).
Or ces valeurs vont changer d'un échantillon à l'autre (fatalement, ou plus exactement statistiquement ). Et donc la table permet de définir une nouvelle valeur mini, calculé sur un seul échantillon, telle qu'elle couvre toutes les valeurs mini des x échantillons (représentatif d'une population complète), et ce avec un certain niveau de confiance.
On voit bien dans les tables que plus le nombre d'éprouvettes testées augmente, plus l'intervalle se resserre (K diminue).
A iso nbre d'éprouvette (n) et iso-probabilité (p barre), l'intervalle s'élargit quand la confiance gamma augmente (K augmente)
Tout ça me semble très physique, ce qui décuple ma frustration de ne pas comprendre!
En espérant que j'ai été plus clair (c'est dur de bien expliquer quand on ne pige pas tout!)
Je te laisse voir ce chemin, j'essaierai de regarder mieux ce soir.
Cordialement.
(*) J'ai fait une erreur de raisonnement précédemment, j'avais pris un intervalle bilatéral, ce qui n'est pas correct ici, puisqu'on veut obtenir "au moins" une valeur tolérable.
Je viens de reprendre la question, et je crois que je suis parti sur une autre idée que celle que tu veux traiter. Si cette fois je suis dans la bonne idée, tu cherches à estimer la valeur minimale de la résistance à donner à des pièces pour avoir non-rupture avec une probabilité donnée (par exemple 99%, ce qui veut dire qu'à la résistance minimale, on prend le risque d'avoir rupture dans un cas sur 100). Par contre, je ne comprends pas ta formule "Xmin=m - K.s " car tes tables font augmenter K lorsqu'on veut plus de sécurité (niveau de confiance plus élevé ou probabilité de non-rupture plus grande) ce qui est manifestement incorrect : Pour diminuer le risque de rupture, il faut augmenter la résistance, et ici elle diminue.
Du coup, j'ai quelques idées (loi du minimum d'une série gaussienne, par exemple), mais avant de m'y engager (d'autant que le nombre de pièces réelles interviendrait - à moins qu'il s'agisse d'un autre modèle), j'ai besoin que tu décrives la procédure exacte d'utilisation de ces tables.
Cordialement.
Juste une correction : je ne cherche pas à estimer la valeur minimale de la résistance à donner à des pièces mais la valeur de contrainte à rupture à ne pas dépasser. Pour des efforts extérieurs donnés, je fais varier ma contrainte calculée en jouant sur la forme et la taille de ma pièce. Cette contrainte calculée doit néanmoins toujours rester inférieure à Rm pour garantir que ma pièce tient. Rm est un seuil, une borne supérieure à ne pas dépasser.
Exemple : dans la vie de mon avion, je calcule une contrainte en service maxi de 100 MPa (ce n'est pas sur cette contrainte que porte ma question). Pour que ma pièce tienne, il faut que cette valeur soit inférieure à Rm (c'est sur celle-là que ma question porte!) :
- Si Rm vaut 110 MPa, la pièce tient, avec une marge statique de 110/100 - 1 = 10% (youpi)
- Si Rm vaut 90MPa, la pièce ne tient pas. Il me faut donc renforcer la pièce (puisque les efforts extérieurs ne changent pas) pour que ma contrainte initiale de 100MPa passe en dessous du Rm de 90MPa.
Diminuer le Rm va donc dans le sens de la sécurité. Plus il est bas, plus je dois renforcer ma pièce. C'est la logique de ces tables.
(MPa : MégaPascal, unité de pression et de contrainte utilisée en méca)
L'utilisation de la table est très simple en réalité :
- je prend mon échantillon de n pièces
- j'en calcule la moyenne m et l'écart type non biaisé s (celui où on divise par n-1)
- je choisi une probabilité ("que mon Rm soit bien supérieur à la valeur que je vais définir", 99% par exemple) et un indice de confiance ("que mon échantillon soit représentatif de la population", 95% par exemple)
- avec la table ad'hoc, je vais chercher ma valeur de K (3.158 si n=25 dans cet exemple)
- je calcule finalement ma résistance mini, dite à 99/95 dans l'exemple présent, par la formule Rm mini = m - K.s
C'est neuneu-proof comme on dit! Sauf que les ingés d'aujourd'hui singent ça sans savoir ce qui se cache derrière.
Et j'ai horreur de grimper aux arbres en bouffant des bananes
Pour la petite histoire, la valeur 99/95 est celle demandée par les autorités de certification aéronautiques pour toutes les pièces dont la rupture serait catastrophique (hors moteurs, qui sont encore plus drastiques). Et on prend encore des marges de calcul là-dessus.
J'espère que mes Rm et mes ruptures à forte probabilité ne vont pas te faire faire de mauvais rêves!!
Merci encore pour ton aide. J'apprécie beaucoup cet échange entre deux mondes si proches en théorie et pourtant de plus en plus éloignés de nos jours. Avec tous ces codes de calcul pré-mâchés, on ne fait plus de maths dans les bureaux d'étude, c'est dommage.
je dois te dire que j'ai surtout enseigné des stats commerciales, puis industrielles. A petit niveau, mais avec la même volonté de comprendre. Du coup, ton explication complète m'aide beaucoup. J'ai rencontré des problèmes industriels (fiabilité entre autres) dans lesquels la compréhension concrète est primordiale, je me retrouve en situation habituelle. Je vais essayer de trouver une idée sur la méthode.
Mais ne sois pas trop pressé !
Cordialement.
NB: Non, je ne ferai pas de mauvais rêves, et je n'ai pas peur en avion (sans être inconscient : j'ai quelques notions sur la fiabilité).
J'ai exploré mes bouquins, en particulier dans le Saporta "probabilités, analyse des données et statistiques", j'ai trouvé dans la partie estimation une référence aux intervalles de prévision (ou tolérance) avec ou sans niveau de confiance. J'ai testé la formule qui est donnée, pour le cas "sans niveau de confiance" et comme je m'y attendais, on ne retrouve pas les valeurs de la table. Donc probablement, il s'agit d'un intervalle de tolérance avec niveau de confiance. Saporta ne donne qu'une référence bibliographique : Hahn & Meeker "Stasistical intervals Wiley 1991.
Je vais lancer les probabilistes du forum sur le sujet s'il les inspire, sous la forme de la loi de P(X< t) connaissant un échantillon.
Cordialement.
Je me demande si la clé n'est pas dans une de tes premières remarques, disant que la probabilité d'avoir à la fois la moyenne la plus basse et l'écart type le plus grand était très improbable (au sens statistique du terme).
Du coup, peut on envisager d'estimer un intervalle pour la moyenne et la variance avec une confiance différente de 95% (par exemple), de telle sorte que le fait de considérer la moyenne la plus basse et l'écart type le plus grand correspondent bien à une confiance de 95%. C'est dit avec des mots de néophytes désolé!
Je préfère éviter ce genre de bricolage, impossible à justifier sérieusement. J'ai proposé le sujet en probabilités ici (clique sur ici).
Cordialement.
Dans le sujet que tu as posté (et je t'en remercie), il faudrait peut-être joindre un extrait de la table de valeurs de K. Mon but est bien de retrouver les mêmes valeurs, et pas d'en déterminer d'autres (même si elles sont étayées par une approche statistique rigoureuse).
Cordialement
Florian
Inutile pour ceux qui veulent traiter le problème général, sinon il y a la référence à ce fil où elle apparaît.
Cordialement.
Je déterre le sujet car je suis dans le même cas que Florian et n'ai pas trouvé/redémontré la formule qui permet de déterminer les coefficients k de ces tables.
Ces tables ont été de même éditées dans la norme ISO 16269-6: 2014 "Interprétation statistique des données —
Partie 6 : Détermination des intervalles statistiques de dispersion"
Il est indiqué l'équation utilisée, malheureusement après pas mal de tentatives sur Excel je n'arrive pas a retrouver les mêmes valeurs que celles tabulées dans la norme...
Je vous fait partager ci-joint un extrait du paragraphe qui défini ce coefficient k.
Après quelques équations le paramètre K est défini comme ci-joint.
De même un extrait d'une des tables ci-joint.
Je vous remercie par avance si vous pouvez m'aider à redémontrer ces valeurs tabulées B-)-
Cordialement