Alphabet distribution
By Pierre-Yves on Monday, January 3 2011, 06:43 - Général - Permalink
Distribution des lettres de l'alphabet
Distribution of the alphabet
English version (French below)
It is one of the basic principle of cryptography which tries to replace characters by letters using statistics to break secret messages. The statistics relies on the fact that for each language the distribution of the letter used change.
I therefore wrote a small script to verify it :-)
There are the output for the wikipedia page about the GPL in English, French and German.
I have to say, that I was expecting higher differences (I am showing in the plot the percentage to correct for the difference in length of the pages).
French version
C'est un des principes de bases de la cryptographie que se base sur la répartition des lettres de l'alphabet dans chaque langues pour décrypter des messages codés. Cette répartition varie en effet pour chaque langue.
J'ai donc écris un petit script pour vérifier ça :-)
Voici donc la distribution des lettres de l'alphabet pour la page de wikipedia à propos de la GPL en Anglais, Français et Allemand.
Je dois dire que j'attendais des différences plus prononcés (les graphs montrent les pourcentages pour palier à la différence de contenu entre les pages).
Comments
Mhh, c'est intéressant toutefois, en ayant rapidement lu le code, je remarque que les lettres comprises dans les tags HTML, le code css/javascript sont également comptées, ce qui peut un peu fausser le résultat.
Il faudrait ajouter une fonction qui sorte le contenu qui n'est pas dans <.*> et pas dans des balises <style .*>.*</style> et <script .*>.*</script>.
C'est joli !
Pour ajouter au commentaire précédent, tu ne comptes pas les caractères spéciaux (é, è, ê, à, ß...) des différentes langues. Peut-être que ça changerait les résultats ?
D'autant que une seule page a assez peu de valeurs à ce niveau là. Il faudrait comparer sur plusieurs ouvrages de genres différents pour établir un tel graphe (voir les travaux de l'équipe bépo-fr qui a réalisé ce travail).
Note aussi qu'en prenant un article de Wikipédia sur le GPL tu fausses les résultats, il y a la répétition régulièrement de termes anglophones ou d'acronymes ce qui fausse la donne !
@PaulK, oui je pensais hier à essayer de transformer le code html en text brute pour refaire l'analyse. Ce qui permettrait de prendre aussi en compte la remarque de Zariko
@Renault, Bonne remarque en effet, faudrai que je sélectionne un autre article (genre le conseil consitutionnel)
Et oui, faut aussi que je regarde comment faire ça pour plusieur pages.
Merci pour les remarques :-)
Je vois pas comment on peut en déduire si les différences observées sont significativement différentes sans avoir l'écart type des valeurs.
Un résultat sans estimation de son erreur ne vaut rien du tout. Je passe mes journées à le répéter au boulot...
@pascal, je donne un pourcentage là pas une moyenne. En multipliant les échantillons on pourrais peut être arriver à le faire, mais il me faut d'abord un échantillon bien plus important.
Mais c'est bien ce que je reproche de pas avoir donné une moyenne :)
Tu peux essayé la même chose avec un emoyenne en échantillonant la page. On devrait même pouvoir determiner la taille minimale de l'échantillon pour avoir un résultat correct.
Je me demande si la distribution suit une loi normale :)
C'est vrai que l'on pourrais pas mal jouer avec ça :-)
Mais bon il faut quand même savoir que l'info est déjà connue:
http://fr.wikipedia.org/wiki/Fr%C3%...