Analyse fréquentielle des lettres d'un texte

Bonjour,

Je recherche une méthode ou un outil statistique pour déterminer si la fréquence d'apparition des lettres de l alphabet dans un texte est "normale"?

Je connais la fréquence d apparition moyenne de chacune des 26 lettres de l alphabet dans un texte en français,

Mais je ne vois pas comment je peux m y prendre pour savoir si un texte donné a été artificiellement travaillé pour faire apparaître certaines lettres plus souvent ou moins souvent que la normale.

Mon objectif est d'aboutir à une conclusion du type:: "Ce texte s'écarte beaucoup de la normale. Il n y a que 5% de chances que ce soit le fruit du hasard", ou bien "Ce texte est dans la normale, il y a très peu de chances que certaines lettres soient évitées, ou favorisées".

Comment vous y prendriez-vous?

Merci par avance pour vos lumières...

Pruvieros.

Réponses

  • Bonjour.

    Le test classique pour ce genre de choses est le test du Khi-deux. Il peut répondre à ta première question. Pour la deuxième, sur des textes courts, il ne donnera pas grand chose (sauf un morceau de "La disparition" de Georges Perec).
    Vois un cours de statistiques.

    Cordialement.
  • Je m'interroge sur "je connais la fréquence d'apparition moyenne de chaque lettre".

    Si l'on ne s'intéresser qu'à la l'être "A", par exemple, en choisissant un texte, on sait qu'on ne tombera pas sur cette fréquence connue. Faudrait-il alors en connaître davantage sur cette lettre "A" : fréquence, écart-type, ... ?

    C'est une question. La fréquence à elle seule suffit-elle à décider si un texte est "normal" (sens à préciser) ?
  • Si on connaît la fréquence d'apparition des 26 lettres, la fréquence d'apparition dans un texte tiré au hasard avec cette loi de fréquence suit la loi multinomiale sur laquelle est basé le test du khi-deux. Et ce test tient bien compte du fait que la fréquence réalisée n'est pas (généralement ne peut pas être) la fréquence modèle.

    Un problème cependant : si le texte n'est pas suffisamment long, certaines lettres pourraient avoir un nombre théorique d'apparition trop petit (<5, disons), ce qui fait que le test devient incorrect. Il faudrait alors utiliser le test exact de Fischer, très lourd pour 26 classes. Donc pour un texte un peu court (moins d'une page), il vaut mieux regrouper les lettres peu fréquentes.

    Enfin il faut savoir que les fréquences de lettres varient suivant le type de texte (voir Wikipédia pour des exemples).

    Cordialement.
  • Bonjour,

    Est-ce que vous avez choisi sciemment l'alphabet plutôt que les mots (noms communs, noms propres, verbe...etc) ?

    Si non, je pensais aux filtres anti-pourriels qui sont basés sur la fréquence des mots pour différencier pourriels/courriels qui pourraient peut-être pourraient être assimiler à un texte 'normal'/'anormal'. Si, c'est des mots il existe tout une panoplie de méthodes d'apprentissage statistique pour comparer des textes sur les fréquences des mots.

    Cordialement.
  • Ok Gérard ;-)
  • Merci à tous, et particulièrement à gerard0.
    Je vais creuser cela.
    Cordialement,
    Pruvieros

    P.S. En fait, je n'ai que 8 classes dans le problème réel que j'ai à traiter. Le "test exact de Fisher" est donc peut-être ce que je cherche.
  • Rebonjour,

    En fait, mon problème précis est le suivant:
    Je cherche à résoudre une énigme qui s'appuie sur le texte suivant.

    "Faut-il prendre la route, le chemin du soleil?
    Faut-il faire le dos rond, et dormir à la belle?
    Je me désole ici, et me demande quel
    lutin facétieux s'affaire à me confondre,
    Quel esprit résolu, têtu, taquin, farceur,
    m'a fait naître en ce lieu, dominé par les ombres
    Et m'y a laissé nu, tout seul en mon malheur."


    Une solution est censée apparaître pour peu qu'on sache comment approcher le texte et le décrypter correctement. Aucun indice n'est donné, il faut se débrouiller avec ce texte.

    Après de nombreuses tentatives vaines de décryptage, il m'est apparu que ce texte comportait beaucoup de notes de musique (sauf la note "si"):"Faut-il prendre la route, le chemin du soleil? etc."
    Mon espoir était alors que l'ensemble des notes ainsi obtenues constitueraient une mélodie connue, qui serait la solution de l'énigme.

    Malheureusement, cela ne donne rien.

    Cependant, peut-être faut-il aller plus loin, et transformer cette suite de notes en utilisant des décalages, inversions, vigénères ou autres...

    Avant de me retrousser les manches et creuser les innombrables possibilités, j'aimerais savoir si je ne me fais pas d'idées, et si la quantité de notes de musique contenue dans ce texte est effectivement anormalement élevée, ce qui permettrait de dire "Il n'y a que x% de chances que ce soit le fruit du hasard".

    Je peux sans problème analyser quelques dizaines de textes de la littérature française, et calculer la fréquence moyenne d'apparition de chacune de ces notes (ainsi que leur écart-type). Mais comment exploiter ces indicateurs?

    Comme l'indique Gérard0, ce texte n'est pas assez long pour un Khi deux (pas assez d'occurrences de chaque note).

    Et pour le test exact de Fisher, cela me semble carrément injouable (si je comprends bien le principe) puisqu'au-delà des 8 classes "do, ut, re, mi, fa, sol, la, si", il faudrait prendre en compte toutes les syllabes possibles de la langue française...

    Hypothèse de travail: On supposera que tous les accents, signes de ponctuation, apostrophes et espaces ne sont pas pris en compte afin de faire apparaître le maximum de notes.

    Voyez-vous une approche pragmatique permettant de calculer la probabilité que la présence de toutes ces notes soit une coïncidence?

    Merci par avance pour vos lumières...
  • Bonsoir,
    On comprend mieux l'objet de votre étude, et peut-être que le test du chi-2 est toujours adapté.
    Cordialement.
  • Super, merci beaucoup.
    Effectivement, le Khi 2 m'a permis d'enterrer cette piste.
    (J'ai dû regrouper plusieurs classes pour cela)
    Bonne soirée.
Connectez-vous ou Inscrivez-vous pour répondre.