Loi normale et intervalle de tolérance

Kouakakou · October 2017

Bonjour à tous,

Je travaille dans l'industrie pharmaceutique et dans le but de valider un procédé de production je dois calculer des capabilités.

J'ai quelques notions de statistiques mais pas énormément poussées non plus. Me voilà donc bloqué sur une problématique, d'où ma venue vers vous.

Pour résumé, nous avons, dans une étape de fabrication d'un médicament, une machine permettant de mettre sous blisters des comprimés.
Un des différents paramètres à étudier va être la température de formage du PVC afin qu'il puisse y accueillir les comprimés.

Problème n°1: Distribution normale

Pour se faire, nous avons relevé la valeur de cette température toutes les 30mn et nous avons donc pu récolter 500 valeurs (500 échantillons).Afin de calculer la capabilité il faut tout d'abord démontrer que la distribution est normale, or après passage au test de normalité (sur minitab), j’obtiens des valeurs de p bien inférieure à 0,05.

Serait-il donc possible de dire que la distribution est normale en sachant que la taille des échantillons est suffisamment grande (n >30) ? On pourrait ignorer le test de normalité sans problème majeur. Le théorème central limite nous dit que, la distribution de l’échantillonnage tend à suivre la loi normale lorsque la taille est grande (n > 30).

Ceci concernait un paramètre que nous avons pu relever 500 fois, cependant j'en ai d'autres où seulement 80 échantillons ont pu être relevés. Mon hypothèse est-elle toujours bonne ?

Problème n°2: Intervalle de tolérance

J'ai aussi besoin de déterminer une plage de tolérance pour un autre paramètre critique lié notre procédé de production.
Nous avons pu relever ce paramètre 300 fois, faut-il ici aussi démontrer la normalité et si concluante se baser sur la formule:
Limite inf et supp= µ ± 3 ? (afin de pouvoir contenir 99.865% de la distribution), ou y-a-t-il une autre façon de procéder ?
Si par malheur la distribution ne serait pas normale et qu'il est trop facile de dire que pour les grands échantillons elle est normale, comment devrais-je opérer ?

Je vous remercie énormément par avance,

En espérant que vous arriverez à m'aiguiller.

Cordialement,

Kouakakou

Kouakakou · October 2017

Petite relance si vous voulez bien m'aider dans mon brouillard :-)

Chalk · October 2017

Koukakou a écrit:

Je travaille dans l'industrie pharmaceutique et dans le but de valider un procédé de production je dois calculer des capabilités.

Rien de personnel, mais habituellement je n'aime pas trop répondre à un problème directement pratique pour une entreprise car j'estime que l'entreprise doit payer pour une telle expertise mathématique et qu'il n'y a pas de raison de sous-vendre les compétences des matheux (tu n'y es probablement pour rien je sais bien).

Koukakou a écrit:

Le théorème central limite nous dit que, la distribution de l’échantillonnage tend à suivre la loi normale lorsque la taille est grande (n > 30).

Ho là, erreur classique, le théorème central limite ne dit absolument pas cela, et dans la pratique il est extrêmement courant de tomber sur des distributions non normales aussi grande soit la population.

Koukakou a écrit:

On pourrait ignorer le test de normalité sans problème majeur.

Ça ça dépend du modèle. Il y a des cas pratiques où même lorsque le modèle gaussien est erroné une telle hypothèse fait sens, et il y a des cas où ça n'a aucun sens et ça n'induit que des trucs faux. Par exemple en régression le modèle d'erreurs gaussiennes est parfois faux mais ça n'empêche pas que la régression par moindres carrés a une utilité. A l'inverse, certains tests d'hypothèses n'ont aucun sens en cas de population non gaussienne. Et puis il y a les cas intermédiaires, comme en finance, où les hypothèses gaussiennes sont fausses, induisent des modèles prédictifs eux aussi faux dans la pratique, mais où on les utilise quand même parce qu'on n'a pas mieux sous la main (en tout cas à l'époque).

Karakou a écrit:

Ceci concernait un paramètre que nous avons pu relever 500 fois, cependant j'en ai d'autres où seulement 80 échantillons ont pu être relevés. Mon hypothèse est-elle toujours bonne ?

Autre erreur. La distribution ne dépend pas de la taille de la population. Plus la population est grande, plus tu peux connaître la distribution avec certitude (en l'occurence ton test d'hypothèse t'a montré que ce n'était très probablement pas gaussien). Mais quelle que soit la taille de la population, la distribution des données c'est la distribution des données, elle ne dépend pas du nombre d'échantillons, donc si l'hypothèse était bonne avec 500 échantillons elle est bonne avec 80, si elle n'était pas bonne avec 500 alors elle n'est pas bonne avec 80, et vice versa. La taille de l'échantillon te permet de faire des tests d'hypothèse plus fiables, mais en aucun cas n'influence la "vraie" distribution des données

Karakou a écrit:

J'ai aussi besoin de déterminer une plage de tolérance pour un autre paramètre critique lié notre procédé de production.
Nous avons pu relever ce paramètre 300 fois, faut-il ici aussi démontrer la normalité et si concluante se baser sur la formule:
Limite inf et supp= µ ± 3 ? (afin de pouvoir contenir 99.865% de la distribution), ou y-a-t-il une autre façon de procéder ?

Il n'y a pas de "il faut" ou "il ne faut pas". Les statistiques c'est un outil, ce n'est pas une baguette magique. Ce qu'il faut en revanche, c'est comprendre ce que signifie les calculs que l'on fait. C'est pourquoi je préfère aussi une entreprise paye un consultant ou embauche un ingénieur/docteur mathématicien plutôt que de bidouiller entre parenthèses :-D Ainsi tout dépend du problème, des objectifs, des contraintes, des ressources, etc. Je ne sais pas ce que tu veux faire, alors comment veux-tu que je puisse répondre à "faut-il [...]" ?

Un autre exemple pour mieux comprendre ce que je dis. Quand on a 500 échantillons, il n'est honnêtement nul besoin en pratique de tests d'hypothèses pour voir si la distribution est normale ou pas. On affiche des histogrammes avec différentes échelles et on voit tout de suite si c'est raisonnable ou pas. Les tests d'hypothèse sont là pour quantifier les choses, mais la visualisation des données c'est important aussi.

Désolé de ne pas t'aider plus. Mais les maths c'est puissant quand on comprend ce qu'il y a derrière, qu'on sait quoi en attendre, et que le problème est clair. Les maths n'offrent pas de réponse quand il n'y a pas de question claire.

gerard0 · October 2017

Bonjour Skyffer3.

Tu redis et complètes ce qu'il a eu comme réponses sur le forum des statistiques. Mais manifestement, la réponse ne lui convenant pas, il a essayé d'avoir une réponse différente ici.
En plus, ce qu'il ne dit pas ici, c'est que ses valeurs sont le rassemblement de plusieurs échantillons, d'où une cause supplémentaire de non Normalité et un risque de ne pas pouvoir traiter ces données.

Cordialement.

Chalk · October 2017

AH ça je savais d'avance qu'une telle réponse ne lui conviendrait pas :-D De toute façon faut pas rêver, si on veut un travail statistiques de qualité il faut embaucher un statisticien. Ça fait un peu élitiste mais les maths c'est pas une matière simple, et on peut pas "tricher", et même pour des pros il faut du temps pour prendre du recul sur les outils et comprendre en profondeur afin de les utiliser à bon escient.

gerard0 · October 2017

Entièrement d'accord.

Loi normale et intervalle de tolérance

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 14