Moyenne, écart-type et variance

J'ai essayé de résoudre un exercice mais je n'ai pas pu ! Je me demandais si vous aviez quelques propositions !!

Exercice Un syndicat de boulangers fait une enquête sur la consommation mensuelle de pain X, en kilog, chez les ménages de plus de 2 personnes. 100 ménages qui ont bien voulu se prêter à l'enquête sont suivis pendant 1 mois, et on note pour chacun d'entre eux la quantité totale de pain consommée. On obtient ainsi un échantillon aléatoire relatif à la variable X.

1 . Pour cette échantillon, on trouve une moyenne estimée à 21.5 kilos et un écart-type estimé à 1.8 kilos. Donner un intervalle de confiance au niveau 95 pour cent pour U=E(X)
==> Alors là je ne comprends pas est-ce que 1.8 => écart-type estimé : est-ce que c'est l'écart-type de la population, ou la racine de la variance empirique puisque c'est un échantillon ou une racine de la quasi-variance puisque il nous a dit **écart-type estimé** et la quasi-variance est un estimateur de la variance = écart-type ^2.

2. Un boulanger du quartier fait une enquête analogue, mais il n'a pu s'assurer que de la coopération de 11 ménages avec une moyenne de 21,5 kilos et un écart-type de 1.8 kilos. Reprendre la première question ...
==> Et là je trouve le même problème que 1 ==> ''un écart type de 1.8 kilos '' est-ce que c'est l'écart-type de la population ??
Merci d'avance
«134

Réponses

  • Effectivement ton exercice a l'air très mal posé. En pratique, il est généralement impossible de donner des vrais intervalles de confiance, puisque l'intervalle de confiance dépend fortement de la loi inconnue (il existe des exceptions si tu sais que la loi de probabilité inconnue appartient à certaines familles de loi).
    A partir des paramètres estimés, on peut donner des intervalles de confiance estimés, mais on a alors aucune garantie que ces intervalles de confiance soient bons.
    Je ne sais pas ce que l'exercice attend...
  • Bonsoir,
    L'exercice précise bien que l'échantillon est aléatoire, donc il n'y a aucune ambiguïté.
    Par contre, je n'aime pas beaucoup le terme "estimé". Une moyenne et un écart type sont par essence calculés.
    Bonne soirée.
  • Mais ma question est : est ce que ''écart-type estimé '': est-ce que c'est l'écart-type de la population, ou la racine de la variance empirique puisque c'est un échantillon ou une racine de la quasi-variance puisque il nous a dit **écart-type estimé** et la quasi-variance est un estimateur de la variance = écart-type ^2. !! et même problème pour 2
  • L'écart type est naturellement la racine carrée de la variance.
    La variance est la somme des carrés des écarts à la moyenne calculée, divisée par le nombre d'observations moins 1.
    Il s'agit de mathématiques, pas d'approximation ou d'estimation. On a des mesures, on en calcule la moyenne et l'écart-type.
  • dlzlogic, ce serait vraiment bien si tu pouvais arrêter de répondre aux questions de probabilité ou de statistiques sur le forum, vu que tu n'as apparemment absolument pas les bases théoriques, ni en proba ni en stats. Et pourtant, tu balances systématiquement des trucs complètement faux, et en plus sur un ton professoral comme si c'était des évidences.

    Je dis ça sans aucune méchanceté, mais vraiment ce serait bien si tu pouvais arrêter...

    On est sur un forum de statistique, bien sûr que les grandeurs dont parle isis sont des quantités estimées à partir des échantillons observés, et non les vraies valeurs de la loi de probabilité inconnue.
  • Bonsoir Isis.

    J'imagine que tu as vu les estimations, et des intervalles de confiance obtenus à l'aide de la loi Normale. Dans le cas de la première question, c'est assez légitime (même si la répartition des consommations de pain n'est pas vraiment gaussienne, elle est assez variable pour que la loi de la moyenne (*) soit très bien approximée par une loi Normale. Tu as la moyenne et la variance de l'échantillon, tu peux utiliser ta formule (attention, la variance de l'échantillon n'est pas s²). Celle avec la loi Normale, ou celle avec Student, elles donnent à peu près les mêmes intervalles (voir dans ton cours les préconisations de ton prof).
    Pour la deuxième question, il est difficile de faire quoi que ce soit de sérieux, sauf à supposer (ce n'est pas dit dans ton énoncé) que la répartition des consommations de pain est vraiment gaussienne. dans ce cas, il faudra bien utiliser la loi de Student

    Ne fais pas attention aux interventions de Dlzlogic. Il ne comprend rien aux probas et stats.

    Cordialement

    (*) d'un échantillon de 100.
  • Oui enfin dans tous les cas ce qu'on calcule est un intervalle de confiance estimé et pas le vrai intervalle de confiance, je trouve que c'est très limite que l'énoncé de l'exercice ne fasse pas la différence (même si asymptotiquement on peut espérer retrouver les mêmes choses).

    D'autre part le TCL ne s'applique pas à la moyenne empirique, mais à $\dfrac{\sum{X_i - \mu}}{\sqrt{n}}$, donc là aussi l'approximation n'est que moyennement justifiable mathématiquement.

    Isis, à quel niveau de maths es-tu ? Cet exercice vient-il d'un bouquin ?
  • Askhelad,

    dans les "vraies" statistiques (pas celles des matheux, celles des utilisateurs), on n'a pas de modèle parfait, mais des données. Donc effectivement, c'est un intervalle de confiance estimé, celui des statisticiens. Et on utilise des approximations gaussiennes grossières.
    D'ailleurs, aucun matheux ne justifie les règles "n>30 et np>0,1" (estimation d'une proportion) ou "aucune classe à moins de 5" (test du Khi-deux). mais elles sont bien pratiques comme garde fous.

    Cordialement.
  • Oui je suis bien d'accord qu'en pratique on n'a très souvent pas le choix que d'utiliser des intervalle de confiance estimés. Je demande juste à ce qu'on précise que ce sont des intervalle de confiance estimés :D

    Pour les gaussiennes, des fois c'est vrai on sait pas faire mieux, des fois je trouve que c'est franchement de l'abus.
    Par exemple le coup de l'approximation de la loi de la moyenne empirique de v.a. de Bernoulli (si c'est bien à ça que tu fais référence), pourquoi utiliser un TCL plutôt qu'une inégalité de Hoeffding ?
    -Hoeffding est plus simple conceptuellement (pas besoin de convergence en probabilité)
    -Hoeffding est plus simple à utiliser (pas de loi normale pour laquelle on n'a pas de forme explicite pour la fonction de répartition)
    -Hoeffding est beaucoup plus simple à démontrer que le TCL
    -Hoeffding est vraie pour tout $n$, pas seulement asymptotiquement
    -Hoeffding concerne bien la loi de la moyenne empirique, pas de renormalisation en $\sqrt{n}$ qui pose problème.

    Bien sûr qu'il faut faire des modélisations et des approximations rarement justifiables en pratique. Mais y a souvent des choses plus simples et/ou plus fines à faire que du TCL et de se ramener à des gaussiennes...
  • Je suis marocaine , je suis en 2 eme année d'économie ('université ) . en faite c'est un examen ! peut etre que vous avez pas bien compri ma question !! le probleme n'est pas en loi mais mon probleme est :
    Un boulanger du quartier fait une enquête analogue, mais il n'a pu s'assurer que de la coopération de 11 ménages avec une moyenne de 21,5 kilos et un écart-type de 1.8 kilos. Reprendre la première question .
    ''un écart type de 1.8 kilos '' est-ce que c'est l'écart-type de la population ?? ou c'est la racine (S empirique)....
    parce qu'on a un échantillon et la variance empirique vient de l'échantillon et ce n'est pas vraiment la même chose ....
    donc est ce que 1.8^2 =la variance de la population u ou la variance empirique ?
  • Franchement, Isis, ton problème est mal formulé d'un point de vue mathématique et on ne peut pas deviner ce que ton prof attend de toi (ça dépend de ce que vous avez vu en cours), donc je te conseille de lui demander directement.

    PS : si ça se trouve, ce que leur prof attend c'est pas des approximations normales mais simplement d'utiliser Tchebychev avec la valeur de la moyenne empirique de la variance empirique. Vous avez vu l'inégalité de Tchebychev, Isis ?
  • Je pense que vous avez tout a fait raison ... dans le 2 eme cas si je suppose que X suit une loi normal donc (la moyenne de X - la moyenne de la population u / (variance de la population=1,8/ racine n de l echantillion ) suit une loi normal ...mais si on considere 1,8=quasi variance ou variance empirique donc (la moyenne de X - la moyenne de la population u / (quasi variance=1,8/ racine n de l echantillion ) suit une loi de student n-1 donc qu est ce que je vais choisir ?
  • Bon, juste une petite réponse à mes deux contradicteurs.
    Donc, isis, désolé, je peux pas faire mieux.
    Ces notions de base en matière de probabilité sont utilisées dans de nombreux métiers, et en particulier dans tous ceux qui concernent les mesures. Celles que je connais sont les mesures topographiques, mais j'ai lu que c'était le même chose dans un domaine assez inattendu : le domaine artistique.
    On peut bien sûr réinventer d'autres méthodes que celles qui sont utilisées depuis deux siècles et qu'à ma connaissance les professionnels n'imaginent pas de remattre en cause.
    Donc, dant l'état actuel des connaissances et des utilisations usuelles, c'est tout de même la loi normale qui est utilisée partout.
    Petite question : la régression par la méthode des moindres carrés semble admise par tout le monde, comment la justifiez-vous sinon par la loi normale ?
  • non pas encore ! mais c'est impossible de demander au prof directement c'est pour ca je fait des mains et des pieds pour comprendre
  • quand vous parlez de " la méthode des moindres carrés" ici vous parlez dans le cadre de la statistique descriptive mais ici une parle de X comme étant une variable aléatoire ==> on estime !
  • dlzlogic écrivait:
    > Donc, dans l'état actuel des connaissances et des
    > utilisations usuelles, c'est tout de même la loi
    > normale qui est utilisée partout.

    C'est archi faux évidemment...

    Dizlogic,
    c'est avec TES connaissances, et dans le cadre de TES utilisations usuelles, que TU vois la loi normale partout.
    D'AUTRES connaissances, et dans d'AUTRES cadres d'utilisation, il intervient évidemment la loi normale ou d'AUTRES lois...

    Comme sur deux autres forums, tu essaies de polémiquer à coup de hors-sujet (ici avec les moindres carrés par exemple).

    Aussi surprenant que cela puisse paraître à ceux qui ne te connaissent pas (comme Isis je suppose), il est bien établi depuis des années que :
    tu ne sais pas ce qu'est une variable aléatoire et une loi de probabilité ;
    tu ne sais pas ce qu'est un estimateur ;
    tu confonds variance (resp. écart-type) et estimateur de variance (resp. écart-type).

    Combien de personnes te l'ont déjà dit ici et sur d'autres forums ? Et malgré cela, tu persistes invariablement...

    Tu te sens fort de ton "professionnalisme" (oui, pour toi, les forumeurs mathématiciens ne sont évidemment pas professionnels...),
    mais tu as des idées complètement aberrantes concernant "les mathématiques" !

    Et, comme tu l'as fait ailleurs, vas-tu utiliser les Messages Privés pour distiller tes considérations à l'abris des regards des forumeurs ?



    Isis,
    comme vous l'a dit Gérard0, ne prêtez aucune importance à Dlzlogic car, dans ses phrases, il agite des notions mathématiques qu'il ne comprend pas.
  • Je respecte son avis même si ca na rien a voir avec l'estimation , mais comme même pourquoi ne pas lui apprendre même des petits notions de l'estimation pour ne pas refaire les même fautes ^^
  • isis écrivait:
    > mais comme même pourquoi ne
    > pas lui apprendre même des petits notions de
    > l'estimation pour ne pas refaire les même fautes
    > ^^


    arf... Beaucoup personnes ont essayé (ici et sur d'autres forums), mais personne n'a réussi à lui faire comprendre la moindre notion de proba ou de stats, même d'un niveau lycée. Même les plus simples définitions ne passent pas (exemple ci-dessus avec la variance...)
    Ce que je dis est peut-être difficile à croire (moi même je ne l'ai pas cru quand on me l'a dit il y a quelques années), mais il faut bien constater que Dlzlogic répète invariablement les mêmes erreurs dans pleins de discussions, et sur plusieurs forums.
  • pour moi excusez moi parce ce que je fait beaucoup de fautes d’orthographe , c'est normal je suis marocaine !!! :P
  • Askelad a écrit:
    D'autre part le TCL ne s'applique pas à la moyenne empirique, mais à $\dfrac{\sum{X_i - \mu}}{\sqrt{n}}$, donc là aussi l'approximation n'est que moyennement justifiable mathématiquement.
    ...
    -Hoeffding concerne bien la loi de la moyenne empirique, pas de renormalisation en $\sqrt{n}$ qui pose problème.

    Déjà je pense qu'il manque un $n$ dans ta formule. Ensuite le TCL ne concerne pas la moyenne empirique??

    Il dit au contraire que pour $n$ assez grand la moyenne empirique suit approximativement une loi normale $\overline{X}_n \approx \mathcal{N}(\mu,\tfrac{\sigma^2}{ n})$ ce qui se formule de façon propre sous la forme $$
    \frac{\overline{X}_n - E[\overline{X}_n]}{\sqrt{V[\overline{X}_n]}} \xrightarrow{~\mathcal{L}~} N(0,1)
    $$
    Personnellement, je ne vois que de la moyenne empirique la dedans. Le $\sqrt{n}$ qu'on fait souvent apparaitre vient simplement du fait que $\sqrt{V[\overline{X}_n]} = \sigma/\sqrt{n}$.
    Askelad a écrit:
    Par exemple le coup de l'approximation de la loi de la moyenne empirique de v.a. de Bernoulli (si c'est bien à ça que tu fais référence), pourquoi utiliser un TCL plutôt qu'une inégalité de Hoeffding ?

    Tout simplement parce que l'intervalle de confiance asymptotique donné par le TCL est moins long ! L'objectif est d'avoir une information la plus précise possible et Hoeffding est loin d'être optimal donc dès que l'approximation gaussienne est raisonnable, on a intérêt à l'utiliser. J'ajoute que la démonstration du TCL est loin d'être compliquée : si on admet que la fonction caractéristique caractérise la loi, il suffit de savoir faire un DL à l'ordre 2).
  • afk écrivait:
    > Personnellement, je ne vois que de la moyenne empirique la dedans.

    Moi j'y vois la moyenne empirique multipliée par $\sqrt{n}$ :D
    Si on note $\hat{\mu}_n$ la moyenne empirique, un intervalle de confiance pour moi c'est majorer la quantité $\ \mathbb{P}\left( |\hat{\mu}_n - \mu | \geq x \right) $
    Or le TCL te dit que : $$
    \mathbb{P}\left( \hat{\mu}_n - \mu \leq \frac{x \sigma}{\sqrt{n}} \right) = \Phi(x) + o(1)
    $$ Comment en déduis-tu quelque chose sur $\ \mathbb{P}\left( \hat{\mu}_n - \mu \leq x \right) $ ?

    > Tout simplement parce que l'intervalle de confiance asymptotique donné par le TCL est moins
    > long ! L'objectif est d'avoir une information la plus précise possible et Hoeffding est loin d'être
    > optimal donc dès que l'approximation gaussienne est raisonnable, on a intérêt à l'utiliser.

    Si on veut du précis, on peut utiliser l'inégalité de Chernoff. Toujours non-asymptotique, toujours aussi simple à prouver. Et y a pas mieux, par le théorème de Cramer (niveau facteurs exponentiels, si tu veux vraiment de l'ultra-précis y a encore mieux mais ça devient vraiment compliqué).

    > J'ajoute que la démonstration du TCL est loin d'être compliquée : si on admet que la fonction
    > caractéristique caractérise la loi, il suffit de savoir faire un DL à l'ordre 2).

    Oui, mais ce point admis est justement la partie compliquée du TCL, non ?
    (Bon j'avoue quand même que quand j'ai dit ça je pensais en fait à Berry-Esseen, la version non-asymptotique du TCL, qui elle est bien technique :D)
  • Isis,

    pour ta question 2, il y a effectivement l'utilisation d'un intervalle basé sur l'inégalité de Bienaymé-Tchebbicheff, mais ça donne des intervalles tellement grands qu'en pratique c'est peu utile.
    Quand tu auras eu la correction, j'aimerais savoir ce que ton prof a fait.

    Cordialement.

    NB : Evite de respecter n'importe quel avis sur un forum, il y a de nombreux "doux-dingues" qui y interviennent pour se sentir exister. Réfléchis avec soin sur les conseils qui te sont donnés et leur compatibilité avec ton apprentissage.
  • Notre bien bien aimé Bienaymé, prend un "y" il me semble. ;)
  • Effectivement,

    j'étais dans la lune ce matin ! Je corrige.

    Cordialement.
  • De même penser que les industriels n'utilisent que la loi normale est complétement absurde, j'avais même fait l'effort de trouver un petit paquet de modélisations dans divers domaines faisant appel à d'autres lois, y compris dans des normes européennes par exemple...
  • Bonjour,
    (Ca se fait aussi sur ce forum, même si on n'y vient que pour critiquer).
    @ Sylviel, naturellement il y a des tas de lois, mais
    1- en matière de hasard, type pêche, seule la loi uniforme existe dans la nature ( le phénomène observé sur l'EPR est effectivement une exception)
    2- toute expérience réalisée suivant une même loi converge (ie tend ) vers la loi normale avec une répartition par rapport à la moyenne, bien connue, lisible dans des tables de répartition et représentée par la courbe de Gauss. Ce calcul d'interpolation fait d'ailleurs l'objet de nombreux exercices.

    Applications directes
    1- dans un tirage quelconque, on compte le nombre de sorties de chacun des numéros, ou des figurines, ou des couleures, ou des tailles, ou des poids, c'est à dire de ce que l'on mesure, alors la répartition est conforne à la répartition normale, sinon il y a une anomalie, type erreur ou tricherie.
    2- c'est une méthode simple et incontestable pour tester la validité d'un générateur de nombre pseudo-aléatoire. Pour mémoire, on l'appelle "pseudo" puisqu'il contient forcément un cycle.
    3- il me parait difficile de générer une répartition suivant une loi uniforme. Par exemple, remplir une zone avec un graphisme uniformément réparti. Je n'y suis pas arrivé sans faire une subdivision pour fabriquer artificiellement l'uniformité.

    Nota: concernant le 1- inutile de me rappeler l'expérience avec un dé à 6 faces qui capote (argument d'une telle mauvaise foi qu'il est imparable). Il ne s'agit pas de la répartition des valeurs marquées, mais du comptage du nombre de sorties de telle valeur marquée. Lorsque la valeur observée est une valeur réelle, type poids ou taille, on doit naturellement établir des classes et compter le nombre d'occurrences dans chaque classe.

    Concernant les réponse éventuelles, il est naturellement très simple de dire "c'est pas vrai", "tu dis encore n'importe quoi", "nous on sait". Il est un peu plus difficile de répondre avec des arguments (autres que des liens sur des cours) du type chiffé, d'autant que ces notions n'ont rien de théoriques et sont exclusivement destinées à être applicables. Alors, puisqu'on est sur un forum de mathématiques, soyons courageux, ne cèdons pas à la facilité.

    Restons cordiaux et (un peu) mathématiciens.
  • Désolé, Dlzlogic,
    mais si on reste mathématicien, on parle mathématiques, pas croyances.

    Par exemple :
    "1- en matière de hasard, type pêche, seule la loi uniforme existe dans la nature" est une croyance. Fausse, puisque aucune loi "existe dans la nature" et que les modèle probabilistes nécessaires aux ingénieurs sont bien plus larges (loi binomiale, loi de Poisson, loi exponentielle, loi de Weibull, etc. Toutes ces lois sont couramment utilisées par des ingénieurs ou techniciens pour des réalisations pratiques.
    "2- toute expérience réalisée suivant une même loi converge (ie tend ) vers la loi normale avec une répartition par rapport à la moyenne, bien connue, lisible dans des tables de répartition et représentée par la courbe de Gauss." est une croyance due à un manque de formation mathématique. C'est un peu grossier de prétendre parler de mathématiques sans les connaître vraiment. Par contre, sous certaines conditions, il y a bien une certaine forme de convergence.

    Ce qui est vrai est :
    "3- il me parait difficile de générer une répartition suivant une loi uniforme." C'est effectivement difficile pour toi, mais réalisable assez facilement avec des dispositifs très classiques. Si tu n'es pas très jeune, tu as connu les "tables de valeurs aléatoires", qui donnaient des valeurs obtenues comme réalisations d'une variable aléatoire uniforme (et nécessaires pour les simulations de type Monte Carlo).

    Bon, je te dis tout ça, mais tu ne veux jamais écouter et remettre en cause ta formation initiale légère et mal faite en statistiques. Je le retente encore une fois.
    On ne sait jamais ...

    Mais je n'y crois pas, tu as déjà commencé à te murer dans ton ignorance :
    "Concernant les réponse éventuelles, il est naturellement très simple de dire "c'est pas vrai", "tu dis encore n'importe quoi", "nous on sait". Il est un peu plus difficile de répondre avec des arguments (autres que des liens sur des cours) du type chiffé (sic), d'autant que ces notions n'ont rien de théoriques et sont exclusivement destinées à être applicables."

    Et je ne recommencerai pas à donner des données chiffrées, tu les contestes par principe. deux fois suffisent.
  • dizlogic a écrit:
    Petite question : la régression par la méthode des moindres carrés semble admise par tout le monde, comment la justifiez-vous sinon par la loi normale ?
    Les mathématiques commencent par la rigueur quand on s'exprime.
    Que signifie "admettre" la régression par la méthode des moindres carrés ?
    Que signifie "justifier" cette méthode ?

    Très visiblement, tu ne sais pas de quoi tu parles. Si tu veux des réponses plus élaborées, commence par mieux élaborer tes questions (qui d'ailleurs ressemblent autant à des attaques qu'à des questions).
  • Bonjour Gérard,
    Comme je m'y attendais, tu ne réponds que par des affirmations et des négations.
    (Au passage, pardon pour le 'r' absent, ma machine oublie parfois des lettres et je n'ai plus mes yeux de vingt ans.)
    Je te cite
    "est une croyance due à un manque de formation mathématique. C'est un peu grossier de prétendre parler de mathématiques sans les connaître vraiment. Par contre, sous certaines conditions, il y a bien une certaine forme de convergence."
    C'est Laplace et Gauss qui l'ont cru les premiers. Cette croyance s'est perpétrée dans les professions dans lesquelles ces notions étaient nécessaire. JJ Levallois ingénieur en chef géographe à l'Institut Géographique National y croyait encore quand il a rédigé son cours (éditon 1960), et dans le chapitre des probabilités, il pris soin de préciser :"Toute cette partie du cours suit de très près l'exposé de M. P. Lévy dans son cours << Cours d'Analyse de l’École Polytechnique >>, Gauthier-Villars, 1931".
    Alors, moi, j'y crois encore, d'autant que j'ai fait un très grand nombre de simulations dans des quantités de domaines différents et qui ont toujours vérifié cela.

    Concernant les tentatives de graphisme répartis uniformément. Si tu as un moyen autre que celui de diviser en parties élémentaires, ça m'intéresserait de le connaitre.
    Non, je n'ai jamais entendu parler de tables de valeurs aléatoires. C'est assez marrant que tu parles de méthode de Monte-Carlo, connais-tu seulement sa justification ?

    C'est assez intéressant comme discussion : toi, tu parles d’ignorance, et la première phrase que l'on m'a répondue sur ce forum est "oublie tout ce qu'on t'a appris"

    Donc la question demeure et est très simple : soit une expérience et son résultat, peut-on savoir, et si oui comment, si elle ne dépend que du hasard ?
  • Bonjour Béru,
    Il est vrai que mon expression "semble admise par tout le monde" est un peu exagérée, puisque j'en connais au moins un qui considère que c'est une méthode comme une autre et que comme telle, elle n'est pas plus justifiée qu'une autre.
    Bon, alors je pose la question autrement "comment justifier les méthodes de régression ?".
    Quand j'emploie le terme "justifier" à propos d'une méthode, ca veut dire quelque-chose du genre "dire qu'elle est valable parce que [...]". Derrière le "parce que, il peut y avoir différents types d'arguments, mais il doit y en avoir.
    Essayons de rester courtois.
  • C'est drôle comme tu ressors toujours les mêmes arguments, comme tu n'écoutes jamais les tonnes de réponses construites, argumentées, et avec références qui y sont rapportés et que tu restes bornées. Moi je sors les pop-corn.
  • Message annulé.
    Il y en a assez pour les insultes.
    @ Gérard, si tu es celui auquel le pense, un membre sur le forum auquel tu fais allusion, si c'est bien celui dont il s'agit, m'a dit quelque-chose du genre "avec ses affirmations, il n'y aurait aucune statistique possible, s'il continue, le vais lui rentrer dans le lard".
    Celui-là est beaucoup plus raisonnable que, il a compris que ça ne sert à fien de se heurter à un mur.
  • Voilà,

    comme d'habitude, Dlzlogic répond à des remarques argumentées et appuyées sur le corpus mathématique et probabiliste par des affirmations fausses.

    je lui avais dit sur un autre forum qu'il était monomaniaque. Je maintiens cette affirmation. Sa monomanie se développe sur ce point précis, une vision déformée de ce que sont les probas. J'avais cru comprendre que c'était en révérence à ses enseignants, il y a un grand nombre d'années. J'ai aussi lu à cette époque des affirmations grossières de ce type, qui ressortissaient plus à de la vulgarisation mal digérée qu'à une connaissance sérieuse.

    Donc je laisse tomber une discussion inutile, mais je continuerai ici aussi à dire hautement que cet individu n'y connaît rien en probabilités et raconte des âneries.

    Bien entendu, pas pour les matheux du forum, ils se sont déjà fait une opinion analogue, mais pour les débutants qui pourraient être désorientés par ce genre d'affirmations malsaines.

    Cordialement.

    NB : ma première discussion avec D. portait sur la difficulté des matheux à comprendre les stats. Je n'y avais pas vu malice. Depuis, j'ai compris : les matheux parlent de maths, lui de son idée fixe. Pas de communication possible.
  • @Dlzlogic : sur un autre forum j'ai faits des dizaines de pages d'explications, de divers niveaux, argumentées, avec des références précise à un livre utilisé en école d'ingé que je t'ai fourni, avec des références à des articles scientifiques de divers domaines, des normes européennes demandant l'utilisation de la loi de Weibull lors des simulations... J'ai essayé de te faire suivre un argumentaire raisonné, j'ai aussi essayé de te faire écrire des définitions propre, ou de faire un protocole précis pour te montrer tes erreurs. Ce fut inutile. Tu reste enfermés dans la certitude que tu sais mieux que tout le monde. Maintenant je ne fais que regarder...
  • A titre d'exemple, une thèse ici dénichée sur la maîtrise statistique des procédés industriels fait mention à plusieurs familles de lois...
  • dlzlogic écrivait:

    > 1- en matière de hasard, type pêche, seule la loi
    > uniforme existe dans la nature

    Loi uniforme pour la pêche, dans le genre :
    une morue (poisson sur "la carte de bien des restaurants") a autant de chance de se faire pêcher qu'une donzelle (un poisson des abysses) ? Quelqu'un a constaté cela un jour ?



    > (...) une telle mauvaise foi (...)
    > (...) il est naturellement très simple de dire (...) n'importe quoi,
    > (...) Restons cordiaux et (un peu) mathématiciens.

    Oui, on te reconnait bien là, mais tu ne te réclames pas d'être mathématicien quand même ?!
  • dlzlogic écrivait:
    > "comment justifier (...)

    Oui, justifions !

    Mais pour justifier, il faut commencer par se donner des définitions, et seulement ensuite on pourra énoncer quelque chose à justifier.

    Or les définitions mathématiques universellement acceptées, tu les réfuses catégoriquement...
    En l'absence de langage clair et précis, personne ne peut justifier quoi que ce soit. Ni toi, ni moi, ni personne.

    Donc, tant que tu n'auras pas eu le courage de prendre les mêmes définitions que tout le monde, les choses ne pourront pas fonctionner : tu continueras à croire des choses pour le moins discutables (pour ne pas dire davantage) et tu ne comprendras pas les explications que moultes personnes ont eu la gentillesse de laisser depuis des années...


    On commence avec une première définition ?
  • dizlogic a écrit:
    Bon, alors je pose la question autrement "comment justifier les méthodes de régression ?".
    Quand j'emploie le terme "justifier" à propos d'une méthode, ca veut dire quelque-chose du genre "dire qu'elle est valable parce que [...]".
    Il y a une étape de vérification des hypothèses quand on fait de la modélisation statistique. J'imagine que c'est du chinois pour toi tout ça, tu ne comprends pas ce qu'est une modélisation.
    Bref, je ne te répondrai plus.
  • @ Béru,
    A propos de vérificaion des hypothèses dont tu parles : un sujet très précis a été évoqué dernièrement, l'utilisation d'une fonction Rand() dans le but de mettre en oeuvre la méthode de Monte-Carlo.
    Comment savoir si telle fonction rand() de tel logiciel fournira un tirage aléatoire, nécessaire à cette méthode.
    Pour info, Sylviel a fait le test.
    Je suppose que je n'aurai pas d'autre réponse.
  • dlzlogic écrivait:
    > un sujet très précis a été évoqué
    > dernièrement, l'utilisation d'une fonction Rand()
    > dans le but de mettre en oeuvre la méthode de
    > Monte-Carlo.



    ah, un problème de définition : Méthode de Monté-Carlo : définition ?

    Définition : "méthode de Monté Carlo" désigne toute méthode visant à calculer une valeur numérique en utilisant des procédés aléatoires.
    donc il est impropre de dire LA méthode de Monté-Carlo, mais on doit dire UNE méthode de Monté-Carlo.

    As-tu le courage d'être d'accord ?
  • Je refuse que tu dises des choses plus que douteuse à mon égard...

    Pour info la méthode de Monte Carlo, basique, consiste à évaluer l'espérance d'une variable aléatoire X
    en simulant un grand nombre de tirages indépendant de cette loi et en calculant la moyenne
    arithmétique de ces tirages.

    Donc la question n'est pas de d'avoir "un générateur rand" mais de savoir simuler X, variable aléatoire
    suivant la loi voulue (non gaussienne en général).

    Pour cela on a généralement besoin d'un générateur de nombre pseudo aléatoire, permettant de simuler une loi
    discrète uniforme, et donc approximer une loi uniforme sur [0,1].

    Il y a des tests vérifiant la qualité des générateurs de nombres aléatoires uniforme, je ne les connais pas bien
    mais il n'ont rien à voir avec ce que tu racontes habituellement...

    Maintenant quant on sait que pour toi toute variable aléatoire est gaussienne, ce qui est écrit ici est probablement
    du Chinois...
  • "Définition : "méthode de Monté Carlo" désigne toute méthode visant à calculer une valeur numérique en utilisant des procédés aléatoires.
    donc il est impropre de dire LA méthode de Monté-Carlo, mais on doit dire UNE méthode de Monté-Carlo."
    Oui, pas de problème, j'avais utilisé l'article 'la' puisque "LA méthode de Monte-Ccarlo" est une expression générique.
    L'important dans la définition est l'expression "procédé aléatoire".
    Dans le même ordre d'idé, doit-on dire "UNE méthode des moindres carrés" ou "LA méthode des moindres carrés", LA ou UNE interpolation linéaire etc.
  • dlzlogic écrivait:
    > L'important dans la définition est l'expression
    > "procédé aléatoire".


    Absolument, donnons-nous cette définition :
    un processus aléatoire est une famille de variables aléatoires $X_k$ associées à toutes les valeurs $k$ d'un ensemble $K$.

    Es-tu d'accord avec cela ?


    On poursuit par la définition d'une variable aléatoire :
    c'est une application qui part d'un ensemble probabilisé $\Omega$ pour aller dans un ensemble $E \subset \R$ (par exemple $E = \{1,2,...,11,12\}$ ou $E= \mathbb N$ ou $E = [0,1]$ ou $E = \mathbb R$, etc.).


    Deux exemples d'ensembles probabilisés et de variables aléatoires :
    -1-
    $\Omega =\{$pile, face$\}$ avec la probabilité $P$(pile) = 1/2 et $P$(face) = 1/2

    Avec ce premier exemple d'ensemble probabilisé, on peut considérer la variable aléatoire $X : \Omega \to \{0,1\}$ où $X$(pile) = 0 et $X$(face) = 1.


    -2-
    $\Omega = \{(i,j) ~|~ 1 \leq i \leq 6 , 1 \leq j \leq 6 \} = \{1,...,6\} \times \{1,...,6\}$ où chaque élément $w \in \Omega$ est associé à une probabilité $P(w) \in [0,1]$ et de sorte que $\sum_{w \in \Omega} P(w) = 1$. Par exemple, $P(w) = 1/36$ pour tout $w$.

    Avec ce deuxième exemple d'ensemble probabilisé, on peut considérer la variable aléatoire $X : \Omega \to \{1,2,...,11,12\}$ où $X(i,j) = i+j$ .

    Es-tu d'accord avec cela ?
  • @ Léon,
    Je t'arrête tout de suite.
    1- "ensemble probabilisé" reste à définir. C'est ce qu'on peut constater dans la nature, dans la vie réelle, dans notre gallaxie ou bien est-ce une notion définie dans l'abstrait ? En ce cas il faut préciser.
    2- tout ce qui concerne les probabilités n'offre d'intérêt que si on peut pas le simuler, comparer des résulatats, des simulations, vérifier d'après des observations etc. J'ai proposé suffisemment d'expériences pour qu'on évite de s'embarquer dans des théories abstraites.

    A ce propos, Gérard a fait allusion à l'inégalité de Bienaymé. Je la rapelle pour mémoire.
    Citation recopiée. (pardon s'il y a une faute de frappe).
    "Considérons une variable éventuelle quelconque z. Son erreur moyenne quadratique e(z) est telle que : e²(z)=Somme ai[zi-m1(z)]².
    Cette quantité donne une idée approchée de la valeur de l'erreur commise sur z lorsque l'on choisit m1(z) comme valeur approchée de z -- il suffit de regarder sa définition pour s'en convaincre.
    Remarquons que des erreurs très supérieures à e(z) sont très peu probables. Supposons en effet que zj soit une valeur de z telle que zj- m1(z) = k.e(z), k étant un nombre plus grand que un.
    Soit C la probabilité de zj - m1(z). Nous pouvons écrire.
    e²(z) = Somme a'i[zi-m1(z)]² + C[zj-m1(z)]² = Somme a'i[zi-m1(z)]² + C.k²e²(z).
    Cette expression montre que C < 1/k².puisque tous les termes sont positifs. Cette inégalité très importante est appelée parfois inégalité de Bienaymé."
    Je cite cela parce que cette inégalité fait partie de l'arsenal des notions élémentaires en matière de probabilité.

    Je suis complètement d'accord qu'on invente toute sorte de formules pour les statistiques, je suis incompétent et ça ne me concerne pas, mais je ne peux en aucun cas revenir sur ce que j'ai dit, expliqué, prouvé, sauf naturellement un raccourci un peu rapide ou une faute de frappe ou une virgule manquante.

    PS As-tu lu le livre de John Hartman ? As-tu lu l'atricle de Wiki "Théorème central limite" ?
  • dlzlogic a écrit:
    (...) inégalité de Bienaymé."

    PS As-tu lu le livre de John Hartman ? As-tu lu l'article de Wiki "Théorème central limite" ?
    Ne t'inquiète pas, oui j'ai lu des choses. Mais parler de tout cela reste illusoire tant qu'on n'a pas un vocabulaire commun.
    Il ne faut pas mettre la charrue avant les bœufs : par exemple dans le TCL, on parle de "variables aléatoires" "indépendantes" "suivant une même loi", de "moyenne" $\mu \in \mathbb R$ et "d'écart-type" $\sigma \in \mathbb R$. Ca, ce sont les hypothèses, et je n'évoque pas la conclusion...
    Tous les mots en "gras" sont à définir pour que tout le monde parle de la même chose, sinon toute discussion est vouée à l'échec...
    On a commencé avec "variable aléatoire", mais ce n'est pas terminé. Une fois que la définition de "variable aléatoire" sera bien fixée, le reste ira vite car ce n'est pas compliqué du tout.
    on évite de s'embarquer dans des théories abstraites.
    Je suis complètement d'accord, inutile d'aller dans l'abstrait.
    C'est ce qu'on peut constater dans la nature, dans la vie réelle, dans notre galaxie ou bien est-ce une notion définie dans l'abstrait ? En ce cas il faut préciser.
    Absolument d'accord, il faut préciser. En fait, c'est une notion mathématique, et on peut facilement en voir des exemples dans la nature.
    1- "ensemble probabilisé" reste à définir.
    Pour rester concret et naturel, on va parler des ensembles finis (qui a déjà vu des ensembles infinis dans la nature ?).
    Un ensemble fini $\Omega$ est dit probabilisé lorsque chacun de ses éléments $w \in \Omega$ est associé à une probabilité $P(w) \in [0,1]$, de sorte que la somme de toutes probabilités $P(w)$ vaille 1 , c'est-à-dire $\sum_{w\in \Omega} P(w)=1$.

    Je viens de préciser une définition mathématique, et voici des exemples simples dans la vie courante :
    \begin{itemize}
    \item L' ensemble $\Omega$ des faces d'un dé cubiques, où chaque face est associée à la probabilité 1/6 (dé non pipé) ;
    \item L'ensemble $\Omega = \{$vert, orange, rouge$\}$ des couleurs d'un feu tricolore, où $P$(vert) = 0.4 (ie. 24 secondes par minute), $P$(orange) = 0.1 (ie. 6 secondes par minute) et $P$(rouge) = 0.5 (ie. 30 secondes par minute) ;
    \item L'ensemble $\Omega = \{0,1,\ldots, 10^{10} \}$, où on associe à chaque nombre $w \in \Omega$ la probabilité $P(w)$ d'avoir $w$ clients simultanément dans la boucherie du quartier, le mercredi à 11h00.
    \end{itemize}
    Es-tu d'accord ?
  • Bonjour,
    Avant de continuer, un point me parait important, le TCL nous vient d'Allemegne et date de 1920, ce qui serait intéressant serait de se limiter aux nouveautés par rapport à ce qu'on savait depuis Lagrange et Gauss.

    Pour tes exemples.
    Le dé à 6 faces, cet exemple est bien connu et même doraki a essayé de me flouer avec ça, J'ai même lu que je ne savais pas faire un tirage avec des dés et quand j'ai demandé ce qui se passait si on remplaçait les taches blanches au nombre de 1 à 6 par des caractères chinois ou des dessins d'animaux on m'a répondu que ça marchait plus.On m'a répondu aussi que la moyenne n'était pas appliquable puisque 3.5 ne figure sur aucune des faces.
    Les feux tricolores, ça me parait un peu compliqué comme loi à définir, puisque l'orange suit le vert et précède le rouge. Donc, exemple sans intérêt pour les notions de base.
    Quant au troixième, il est trop compliqué aussi, puisqu'il y a trop de facteurs qui entrent en jeu pour une liste d'évènements trop petite, en gros entre 0 et 5.
    .
    Moi je te propose un exemple simple avec pile ou face :
    1- on sait qu'il y a une chance sur 2 d'avoir pile. L'évènement à étudier est la probabilité d'avoir une suite de P pile et de F face. C'est facile à calculer et facile à simuler, pour vérification
    2- les évènements climatiques actuels (inondations) provoquent des questionnements. Comment a-t-on étudié ces problèmes ?
    3- Une application de la finalité de tout cela en ce qui me concerne : on effectue un certain nombre de mesures, d'observations, utilisation de matériels, de techniques etc. comment prendre en compte tous ces éléments et quel est la qualité du résultat final. Un exemple d'application est le calage d'une zone connue en coordonnées géographiques avec une carte plane, donc qui a subi une projection. Moi je sais le faire et je sais pourquoi (cf discussion sur la justification d'une méthode). Je n'ai eu comme réaction que "ce sera difficile", "il faut connaitre la projection", et la tienne sur laquelle je n'insisterai pas.
    4- l'exemple de la pêche industrielle (poids et taille) est intéressant aussi. Il a été pris dans un cadre scolaire ou universitaire par un grand éditeur. Il m'a d'ailleurs donné l'idée d'un exercice que je te proposerai, si tu veux.

    Donc il y a autant d'exemples simples tout autour de nous pour lesquels la loi de probabilitié est simple à définir, par exemple, au tir à l'arc : "on vise le milieu". Et surtout c'est vrai quel que soit le tireur, l'arc etc. Mais il est vrai que tu as réfuté un cours dans lequel l'auteur prenait justement l'exemple de flèches sur une cible pour expliquer de manière simple ces notions de base.
  • dlzlogic écrivait:
    >
    > Pour tes exemples.
    > Le dé à 6 faces, (...) On
    > m'a répondu aussi que la moyenne n'était pas
    > appliquable puisque 3.5 ne figure sur aucune des
    > faces.

    On t'a répondu que 3.5 est la moyenne de loi uniforme sur le dé, et que cela n'apparaît sur aucune face, donc que cela ne pouvait pas être la valeur la plus probable.


    > Les feux tricolores, ça me parait un peu compliqué
    > comme loi à définir, puisque l'orange suit le vert
    > et précède le rouge. Donc, exemple sans intérêt
    > pour les notions de base.


    C'est toi qui complique inutilement en pensant qu'il y a succession des couleurs donc sans intérêt, etc.
    Peu importe qu'il y ait succession des couleurs, ce qui est important, c'est qu'il n'y a que trois couleurs possibles, une et seule est allumée, et que pour chaque couleur, il y a une proba de tomber dessus quand on arrive au feu tricolore.

    Tu parles de succession des couleurs (genre : si le feu est rouge à l'instant $t$, de quel couleur sera-t-il à l'instant "t+30" secondes ?), tu es en train de parler de plusieurs variables aléatoires qui ne sont pas indépendantes. Mais pour l'instant, nous n'avons pas défini ce que cela signifie...


    > Quant au troixième, il est trop compliqué aussi,
    > puisqu'il y a trop de facteurs qui entrent en jeu
    > pour une liste d'évènements trop petite, en gros
    > entre 0 et 5.

    C'est étrange de parler d'un trop grand nombre de facteurs qui entrent en jeu, pour des exemples dans la vie courante, car dans la vie courante, il y a très souvent un nombre inconnu de facteurs qui entrent jeu. Cela n'empêche pas de parler de proba, même si on ne la connaît pas.



    >
    > Moi je te propose un exemple simple avec pile ou
    > face :
    > 1- on sait qu'il y a une chance sur 2 d'avoir
    > pile. L'évènement à étudier est la probabilité
    > d'avoir une suite de P pile et de F face. C'est
    > facile à calculer et facile à simuler, pour
    > vérification

    oui, c'est du même genre que le dé, mais avec 2 au lieu de 6.


    > Donc il y a autant d'exemples simples tout autour
    > de nous pour lesquels la loi de probabilitié est
    > simple à définir, par exemple, au tir à l'arc :
    > "on vise le milieu".

    "on vise au milieu" n'a rien de mathématique, donc ton exemple n'est pas assez précis.




    > 2- les évènements climatiques actuels
    > (inondations) provoquent des questionnements.
    > Comment a-t-on étudié ces problèmes ?

    Quel est le rapport avec la définition d'un ensemble probabilisé et d'une variable aléatoire ?



    > 3- Une application de la finalité de tout cela en
    > ce qui me concerne : on effectue un certain nombre
    > de mesures (...) Moi je sais le faire et je
    > sais pourquoi (cf discussion sur la justification
    > d'une méthode).


    Tes mesures sont de quel type ? Dans quel ensemble doit-on les considérer ?
    Si tu veux parler d'ensemble infini, ça va être assez sportif... c'est pour cela que je préfère commencer par les ensembles finis, avec des dés ou des pièces.



    > 4- l'exemple de la pêche industrielle (poids et
    > taille) est intéressant aussi. Il a été pris dans
    > un cadre scolaire ou universitaire par un grand
    > éditeur. Il m'a d'ailleurs donné l'idée d'un
    > exercice que je te proposerai, si tu veux.

    Même remarque : les poids et la taille des poissons appartiennent à quels ensembles : fini (lequel ?) ou infini (lequel ?)

    Encore une fois, n'allons pas trop vite...

    Bref, est-on ok sur la notion de variable aléatoire ?
  • Il est bien évident que j'ai soigneusement choisi les termes que j'ai employés.
    Apparemment je n'ai pas été assez précis à propos de l'expérience avec pile ou face.
    La variable étudiée est la probabilité de suite de P pile.
    Par exemple, quelle est la probailité d'une suite de 6 pile (P=6), de 8 pile.
    Naturellement ce sera la même probabilité pour un même nombre de face.

    Ta question à propos de la taille des poissons est significative, ma réponse : elle est aléatoire. C'est en cela que l'exemple est tout à fait appliquable à la question qui nous intéresse présentement.
    Cette question a déjà été évoquée et m'a été posée, ma réponse a été en gros "je suppose qu'on décide de la loi de probabilité au moment où le bateau quitte le port, mais comment prévient-on les poissons ?" (le destinataire de cette réponse se reconnaitra, mais il n'est pas obligé de s'identifier).

    Pour "variable ...", je répondrai par une citation.
    "Une variable est dite éventuelle lorsqu'elle peut prendre l'une quelconque des valeurs x1, x2, ... xn d'une suite continue ou non de valeurs auxquelles sont attachées les probabilités a1, a2, ... an. Toutes les valeurs possibles de x sont énumérées dans la suite xi. Il en résulte que Somme(ai)=1."

    Le qualificatif "aléatoire" apporte, à mon avis, la condition supplémentaire : la probabilité ai arrachée à chaque variable est identique pour toutes les variables, a1=a2=...=ai=...=an. Il s'agit donc d'une répartition uniforme, par définition. Mais ce n'est que mon avis.

    Concernant les formules de calculs de pluie (intensité fréquence etc.), il est bien évident qu'elles ont été établies par des méthodes statistiques. On est donc à fait dans le cadre du sujet dont on parle.
  • dlzlogic écrivait:
    > Concernant les formules de calculs de pluie
    > (intensité fréquence etc.), il est bien évident
    > qu'elles ont été établies par des méthodes
    > statistiques. On est donc à fait dans le cadre du
    > sujet dont on parle.

    Je suis d'accord que les stats aident à déterminer des modèles probabilistes. Mais cela me paraît bien avancé, et je voudrais juste qu'on soit d'accord sur le vocabulaire "variable aléatoire".




    > Ta question à propos de la taille des poissons est
    > significative, ma réponse : elle est aléatoire.

    Aléatoire... c'est justement ce qu'il faut définir. Disons que cela peut ressembler à ça :
    on considère l'ensemble (fini) des poissons $\{poisson_1,\dots, poisson_n\}$ muni de la probabilité uniforme ( $P(poisson_i)=1/n$ ), et la variable aléatoire $X$ donnée par $X(poisson_i) = poids(poisson_i)$.





    > La variable étudiée est la probabilité de suite de
    > P pile.
    > Par exemple, quelle est la probabilité d'une suite
    > de 6 pile (P=6), de 8 pile.

    Tu ne précises pas le nombre de lancés ?
    Une variable aléatoire est une application d'un ensemble probabilisé dans une partie de $\mathbb R$. Quand tu parles d'une variable aléatoire, précises bien l'ensemble probabilisé au départ et ensuite l'image réelle de tout élément de l'ensemble (cf ce que je viens de faire avec les poissons), sinon c'est imprécis. En l'occurrence, là, je ne comprends pas la variable aléatoire dont tu parles.
  • L'expression "variable aléatoire" ne m'est pas familière. Donc, j'ai essayé de lui donner une définition par rapport à des choses que je connais, par exemple "experience aléatoire".
    Donc, d'accord pour ta relation avec les poissons.

    Pour le jeu de pile ou face, qu'importe le nombre de lancés, pourvu naturellement qu'il soit assez grand.
    L'évènement 6 pile en suivant dans une série de configurations possible a une probabilité = 1/2^6.
    En d'autres termes, une chance sur deux de changer, 1/4 d'avoir une suite de 2, 1/8 chances d'avoir une suite de 3 etc.
    On vérifie, et naturellement je l'ai fait, que le résultat sur un grand nombre de tirages correspond à la probabilité calculée.
    On n'en est pas encore au problème de répartition des écarts par rapport à la moyenne, là on vérifie juste qu'une expérience aléatoire est conforme à la répartition résultant du calcul pur et théorique de la probabilité d'un évènement.
    En d'autres termes la somme des évènements nombre de 1P + nombre de 2P + nombre de 3P + ... , et la même chose avec la somme des liste des face, est évidemment la somme des évènement possibles. Mais on vérifie surtout que le nombre de résultats de chaque liste correspond bien à la probabilité.
    Je suis presque sûr de t'avoir déjà envoyé une copie du résultat.
    Petite conséquence, si à un moment quelconque, au cours de l'expérience, une liste se trouve en retard, on a plus de chances qu'elle le rattrape et ainsi ne restera pas en retard. La planche de Galton en est une explication visuelle.Mais là j'anticipe.
Cette discussion a été fermée.