« Fréquence des caractères/aspell » : différence entre les versions

De Disposition de clavier bépo
mAucun résumé des modifications
(Ajout de la catégorie "Méthodologie")
 
(3 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
Analyse sur un dictionnaire français (aspell dump master fr)
Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :
<pre>
<pre>
e       1       738203
car. # nbre %
s       2       643663
e 1 738203 10,51363
i       3       620981
s 2 643663 9,16718
a       4       620084
i 3 620981 8,84414
n       5       558344
a 4 620084 8,83136
r       6       532914
n 5 558344 7,95205
t       7       477852
r 6 532914 7,58987
o       8       358933
t 7 477852 6,80566
l       9       302066
o 8 358933 5,11200
'       10     287875
l 9 302066 4,30208
u       11     272061
' 10 287875 4,09997
é       12     210656
u 11 272061 3,87475
m       13     203397
é 12 210656 3,00020
c       14     197967
m 13 203397 2,89682
p       15     143280
c 14 197967 2,81949
d       16     138238
p 15 143280 2,04062
g       17     96115
d 16 138238 1,96881
b       18     88039
g 17 96115 1,36889
f       19     84714
b 18 88039 1,25387
q       20     83829
f 19 84714 1,20651
h       21     74942
q 20 83829 1,19391
z       22     69539
h 21 74942 1,06734
v       23     59291
z 22 69539 0,99039
â       24     40858
v 23 59291 0,84443
x       25     23414
â 24 40858 0,58191
j       26     20884
x 25 23414 0,33347
è       27     20831
j 26 20884 0,29743
y       28     18660
è 27 20831 0,29668
-       29     7001
y 28 18660 0,26576
î       30     6753
- 29 7001 0,09971
ç       31     6071
î 30 6753 0,09618
ê       32     5168
ç 31 6071 0,08646
û       33     2575
ê 32 5168 0,07360
k       34     2001
û 33 2575 0,03667
ô       35     1761
k 34 2001 0,02850
ï       36     1478
ô 35 1761 0,02508
w       37     778
ï 36 1478 0,02105
à       38     79
w 37 778 0,01108
ü       39     44
à 38 79 0,00113
ë       40     35
ü 39 44 0,00063
É       41     6
ë 40 35 0,00050
ù       42     3
É 41 6 0,00009
ö       43     2
ù 42 3 0,00004
ä       44     1
ö 43 2 0,00003
Î       44     1
ä 44 1 0,00001
Î 44 1 0,00001
</pre>
</pre>
Remarques :
*pas de ponctuation dans un dictionnaire ;
*il manque les ligatures æ/œ ;
Anecdotique :
*le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
*deux « ö » pour « maelström(s) » ;
*un « ä » pour « [[wp:Länder|Länder]] », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
*un « Î » pour « [[wp:Île-des-Sœurs|Île-des-Sœurs]] », c'est un nom propre on pourrait tout autant avoir  [[wp:Île-de-France|Île-de-France]]…) ;
*six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…
Caractères plus fréquents que sur les analyses de textes :
*apostrophe et tiret ;
*« â », « ê » et « ï » probablement à cause des conjugaisons ;
Caractères moins fréquents :
*« à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
*de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
* û ô
[[Catégorie:Méthodologie]]

Dernière version du 27 mars 2023 à 15:28

Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :

car.	#	nbre	%
e	1	738203	10,51363
s	2	643663	9,16718
i	3	620981	8,84414
a	4	620084	8,83136
n	5	558344	7,95205
r	6	532914	7,58987
t	7	477852	6,80566
o	8	358933	5,11200
l	9	302066	4,30208
'	10	287875	4,09997
u	11	272061	3,87475
é	12	210656	3,00020
m	13	203397	2,89682
c	14	197967	2,81949
p	15	143280	2,04062
d	16	138238	1,96881
g	17	96115	1,36889
b	18	88039	1,25387
f	19	84714	1,20651
q	20	83829	1,19391
h	21	74942	1,06734
z	22	69539	0,99039
v	23	59291	0,84443
â	24	40858	0,58191
x	25	23414	0,33347
j	26	20884	0,29743
è	27	20831	0,29668
y	28	18660	0,26576
-	29	7001	0,09971
î	30	6753	0,09618
ç	31	6071	0,08646
ê	32	5168	0,07360
û	33	2575	0,03667
k	34	2001	0,02850
ô	35	1761	0,02508
ï	36	1478	0,02105
w	37	778	0,01108
à	38	79	0,00113
ü	39	44	0,00063
ë	40	35	0,00050
É	41	6	0,00009
ù	42	3	0,00004
ö	43	2	0,00003
ä	44	1	0,00001
Î	44	1	0,00001

Remarques :

  • pas de ponctuation dans un dictionnaire ;
  • il manque les ligatures æ/œ ;

Anecdotique :

  • le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
  • deux « ö » pour « maelström(s) » ;
  • un « ä » pour « Länder », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
  • un « Î » pour « Île-des-Sœurs », c'est un nom propre on pourrait tout autant avoir Île-de-France…) ;
  • six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…

Caractères plus fréquents que sur les analyses de textes :

  • apostrophe et tiret ;
  • « â », « ê » et « ï » probablement à cause des conjugaisons ;

Caractères moins fréquents :

  • « à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
  • de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
  • û ô