« Fréquence des caractères » : différence entre les versions

De Disposition de clavier bépo
Ligne 271 : Ligne 271 :
Certaines analyses regroupent les caractères portant le même diacritique, d'autres omettent les ligatures, le ponctuation ou les encore chiffres. Des analyses plus poussées devraient être faites en tentant compte de tous les caractères rencontrés, sans filtrage. (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.)
Certaines analyses regroupent les caractères portant le même diacritique, d'autres omettent les ligatures, le ponctuation ou les encore chiffres. Des analyses plus poussées devraient être faites en tentant compte de tous les caractères rencontrés, sans filtrage. (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.)


En croisant les diverses analyses, on trouve (l'ordre exact reste à préciser) :
En croisant les diverses analyses, on a grosso-modo (les caractères alphabétique sont entre crochets, l'ordre exact global reste à préciser) :
*au dessus de 5% : [easintrulo]
*au dessus de 5% : ['''easintrulo''']
**le a est 6ème avec seulement 6% sur le corpus Leboutte, cela semble étrange.
**le a est 6ème avec seulement 6% sur le corpus Leboutte, cela semble étrange.
*entre 5 et 2% : [dcmp]
*entre 5 et 2% : ['''dcmp''']
*entre 2 et 0.5% : é [v] , ' [qf] . [gbhj]
*entre 2 et 0.5% : '''é [v] , ' [qf] . [gbhj]'''
**ces caractères ont un accès direct
**ces caractères ont un accès direct
*entre 0.5 et 0.1% : à - [x] è [y] ê " [z] : ( )  
*entre 0.5 et 0.1% : '''à - [x] è [y] ê " [z] : ( )'''
**le bépo a préféré [[Utilisateur:Nemolivier/Tiret|placer le tiret]] sur la touche {{tA|8}}) de la rangée des chiffres bien qu'il soit relativement fréquent ;
**à è ê " ( ) ont un accès direct
**la fréquence du guillemet " est un reliquat de l'azerty qui n'a pas les vrais «»
**la fréquence du guillemet " est un reliquat de l'azerty qui n'a pas les vrais «»
*entre 0.1 et 0.01% : ç 0 / ? ; â ô î ù û ! 1 [kw] 2 î 3 9 5 4 7 6 8
**- est en direct sur la touche {{tA|8}} de la rangée supérieure (voir [[Utilisateur:Nemolivier/Tiret|place du tiret]]) ;
**: est en majuscule
*entre 0.1 et 0.01% : '''ç 0 / ? ; â ô î ù û ! 1 [kw] 2 î 3 9 5 4 7 6 8'''
*[[place des chiffres]] : "«»()/ sont plus fréquents que les chiffres mais pas +@=% (le 0 sort du lot).
*[[place des chiffres]] : "«»()/ sont plus fréquents que les chiffres mais pas +@=% (le 0 sort du lot).
**le w devrait être dernier et est trop fréquent dans les corpus Tempé/Chartier ;
**le w devrait être dernier et est trop fréquent dans les corpus Tempé/Chartier ;
*moins de 0.01% : * œ ï = @ + > ] [ % < & | # $ ë ~
*moins de 0.01% : '''* œ ï = @ + > ] [ % < & | # $ ë ~'''
*moins de 0.001% : ü ö …
*moins de 0.001% : '''ü ö …'''


== Liens externes ==
== Liens externes ==

Version du 12 octobre 2008 à 04:16



Attention

Cette page est en reconstruction.

D'un texte à un autre, on constate qu'il y a des variations sensibles de la fréquence des lettres, y compris pour des textes de plus de 20 0000 lettres (comme celui utilisé par Francis Leboutte). Pour obtenir des statistiques aussi représentatives que possible, on utilise le corpus de Thomas Tempé, qui vise à avoir un volume critique et à contenir des textes d'origines diverses pour dépasser ces problèmes.

La plupart des analyses fréquentielles de la langue française ne tiennent compte que des lettres et non des caractères de ponctuation. Or ces derniers sont plus fréquents que certaines lettres (,'-.:), il faut donc en tenir compte.

On remarquera que l'analyse fréquentielle du français donne a peu près les même résultats que l'anglais, l'allemand et l'espagnol[1]. Cela pourra servir pour placer les caractères rares en français (surtout vis-à-vis de l'anglais).


Corpus de Thomas Tempé

http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTempé 1 616 343 caractères (72 différents)

e 225947 13.980
s 121895 7.542
a 117110 7.246
i 115465 7.144
t 111103 6.874
n 108812 6.732
r 100500 6.218
u 96785 5.988
l 83668 5.177
o 82762 5.121
d 56269 3.481
c 50003 3.094
p 46335 2.867
m 45521 2.816
é 29206 1.807
v 24975 1.545
, 22173 1.372
' 21958 1.359
q 20889 1.292
f 16351 1.012
. 13921 0.861
b 13822 0.855
g 13288 0.822
h 11298 0.699
j 8351 0.517
à 7449 0.461
- 6887 0.426
x 5928 0.367
y 4725 0.292
è 4160 0.257
ê 3445 0.213
" 3326 0.206
z 2093 0.129
: 1922 0.119
w 1747 0.108
) 1616 0.100
( 1506 0.093
ç 1306 0.081
0 1173 0.073
/ 1141 0.071
? 1093 0.068
; 942 0.058
ù 890 0.055
! 877 0.054
1 782 0.048
k 745 0.046
2 725 0.045
î 695 0.043
3 488 0.030
9 284 0.018
5 281 0.017
4 235 0.015
7 199 0.012
6 198 0.012
8 183 0.011
* 148 0.009
œ 108 0.006
ï 84 0.005
= 81 0.005
@ 72 0.004
+ 68 0.004
> 64 0.004
] 56 0.003
[ 54 0.003
% 48 0.003
< 47 0.003
& 20 0.001
| 12 0.001
# 11 0.001
$ 10 0.001
ë 7 0.000
~ 5 0.000

Corpus de Nicolas C.

Statistiques des fréquences des symboles

Ces statistiques ont été calculées en vue d'être utilisés pour le placement des touches, donc ne correspondent pas exactement à des stats pures du corpus utilisés. Liste des traitements effectués :

  • regroupement majuscules/minuscules (on cumule les stats de E et de e) ;
  • y'a pas de notion de majuscules/minuscules pour la ponctuation, donc on effectue les regroupements suivants (ce sont pas ceux que j'ai utilisé à l'origine, mais ceux qui ont été fait ensuite, j'ai refait les stats en fonction pour avoir des stats à jour pour l'argumentation des permutations) :
 * @@':' -> '.'@@ ;
 * @@'?' -> ','@@ ;
 * @@';' -> "'"@@ ;
 * @@'!' -> @@dead-^ ;
  • PAS de regroupement chiffres/symboles ;
  • report des stats de âêûîôäëïöü sur aeuio, dead-^ et dead-diaresis

Ce qui donne donc :

lettre	rang	occurence

e	1	229143
s	2	121895
a	3	117758
i	4	116225
t	5	111103
n	6	108812
r	7	100500
u	8	97632
l	9	83668
o	10	83229
d	11	56269
c	12	50003
p	13	46335
m	14	45521
é	15	29206
v	16	24975
,	17	23266
'	18	22965
q	19	20889
f	20	16351
.	21	15843
b	22	13822
g	23	13288
h	24	11298
j	25	8351
à	26	7449
dead-^	27	7225
-	28	6887
x	29	5928
y	30	4725
è	31	4160
"	32	3326
z	33	2093
w	34	1747
)	35	1616
(	36	1506
ç	37	1306
0	38	1173
/	39	1141
ù	40	890
1	41	782
k	42	745
2	43	725
3	44	488
9	45	284
5	46	281
œ	47	256
4	48	235
7	49	199
6	50	198
«	51	191
»	52	187
8	53	183
*	54	148
_	55	107
dead-¨	56	101
=	57	81
@	58	72
+	59	68
>	60	64
]	61	56
[	62	54
%	63	48
<	64	47
¨	65	20
&	66	20
|	67	12
#	68	11
$	69	10
­	70	8
°	71	8
²	72	7
^	73	5
~	74	5
©	75	4
·	76	2
ž	77	1
ð	78	1

Autres analyses fréquentielles

Remarques

Certaines analyses regroupent les caractères portant le même diacritique, d'autres omettent les ligatures, le ponctuation ou les encore chiffres. Des analyses plus poussées devraient être faites en tentant compte de tous les caractères rencontrés, sans filtrage. (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.)

En croisant les diverses analyses, on a grosso-modo (les caractères alphabétique sont entre crochets, l'ordre exact global reste à préciser) :

  • au dessus de 5% : [easintrulo]
    • le a est 6ème avec seulement 6% sur le corpus Leboutte, cela semble étrange.
  • entre 5 et 2% : [dcmp]
  • entre 2 et 0.5% : é [v] , ' [qf] . [gbhj]
    • ces caractères ont un accès direct
  • entre 0.5 et 0.1% : à - [x] è [y] ê " [z] : ( )
    • à è ê " ( ) ont un accès direct
    • la fréquence du guillemet " est un reliquat de l'azerty qui n'a pas les vrais «»
    • - est en direct sur la touche clavier azerty8 de la rangée supérieure (voir place du tiret) ;
      est en majuscule
  • entre 0.1 et 0.01% : ç 0 / ? ; â ô î ù û ! 1 [kw] 2 î 3 9 5 4 7 6 8
  • place des chiffres : "«»()/ sont plus fréquents que les chiffres mais pas +@=% (le 0 sort du lot).
    • le w devrait être dernier et est trop fréquent dans les corpus Tempé/Chartier ;
  • moins de 0.01% : * œ ï = @ + > ] [ % < & | # $ ë ~
  • moins de 0.001% : ü ö …

Liens externes