« Utilisatrice:Ariasuni/V2 » : différence entre les versions

Version du 13 février 2013 à 17:01

Mes réflexions à propos de la V2.

Génération des dispositions

Quoi

On génère toutes les possibilités de dispositions des 34 touches sur lesquelles on va placer des lettres ou des symboles de ponctuation (le ê ne compte pas puisqu'il est absent de certains claviers). Il faudra aussi décider des caractères que l'on va placer.

Contraintes

Cela fait 34! possibilités différentes, c'est à dire ≃ 3 × 10^38 (3 avec 38 zéros derrières…) Il faut donc simplifier poser des contraintes pour réduire les possibilités…

On va placer des contraintes pour ne pas générer des dispositions totalement aberrantes, par exemple il est évident que certaines lettres doivent être placés sur la rangée de repos, et on peut même affiner en disant que certaines lettres ne peuvent pas être sur l'auriculaire.

Sélection des meilleures dispositions

Collecte de données

Corpus

Français et anglais, ce dernier comptant à 20% ou quelque chose comme ça.

Carte d'accessibilité

Je pense que les cartes d'accessibilité des touches ne sont pas très utiles, dans le sens où elle ne donnent pas assez d'informations pour se donner une idée de la difficulté de frappe d'un digramme/trigramme. Du coup on a du mal à représenter la réalité, on rajoute des contraintes dans tous les sens…

Au contraire, une carte d'accessibilité des digrammes rend beaucoup mieux compte de la réalité.

Algorithme

Général

Cela se passe en différentes étapes:

Collecte des données
Génération des dispositions

Énergie

L'énergie dépensée pour taper une lettre (nous allons l'appeler E) est calculée en fonction de la carte d'accessibilité des digrammes, mais pas proportionnelle. En effet, on veut beaucoup de malus pour les enchainements difficiles mais pas beaucoup sur les faciles, sinon on risque de favoriser les situations où on a beaucoup d'enchainements très faciles et deux-trois horribles.

Finalement le but est donc de fluidifier la frappe (plus agréable), afin de ne pas «déconcentrer» celui qui écrit, de ne pas faire peur aux débutants avec certains mots, et si une personne doit écrire souvent un mot (cela arrive souvent dans les domaines de l'informatique par exemple) elle aura moins de chance de tomber sur un truc chiant à écrire.

Mise en forme des données

Les corpus de textes sélectionnés ne suivent souvent pas les règles de typographie française, contiennent «oe» au lieu de «œ», etc. Nous avons déjà un outils pour ça sur le dépôt SVN.

Je pense qu'on peut aller plus loin en prenant en compte la réforme de l'orthographe de 1990, donc en changeant «chariot» en «charriot», «connaître» en «connaitre», «maître» en «maitre», «porte-monnaie» en «portemonnaie», etc. Du coup ça risque de changer pas mal de statistiques et remettre un certain nombre d'acquis en question…

Formatage des données

Ensuite on traite le corpus complet une seule fois pour le transformer en statistiques intéressantes, de la forme:

[digramme] [fréquence]

L'espace sert de séparateur parce qu'on ne le compte pas dans ces statistiques simplifiées, qui permettront d'éliminer les plus mauvaises dispositions, celle qui font le plus travailler les doigts. En effet, si elles ne sont pas optimisés pour les digrammes, pourquoi le seraient-elle pour des mots? La formule pour calculer l'«énergie» est de la forme:

[fréquence] × [énergie]

On fera varie les critères de sélection pour atteindre un nombre de dispositions raisonnables (tout dépendra des performances du deuxième logiciel qu'on utilisera pour une sélection plus fine des dispositions).

Sélection

Quand on a notre «corpus» réduit de dispositions, on peut faire un maximum de tests calculer différentes statistiques à propos du corpus initial non-transformé.

Typiquement, il y a plusieurs critères:

L'alternance des doigts:
- pas deux fois le même doigt de suite (compté dans la carte d'accessibilité des digrammes)
- E(index) > E(majeur) > E(annulaire) > E(auriculaire), l'utilisation de chaque doigt devrait se faire selon une courbe croissante en partant de l'auriculaire (comme la fonction racine carré)
L'alternance des mains:
- malus si une main tape plus de 2 ou 3 caractères (à décider)
- la barre d'espace compte moins qu'un caractère de l'autre main mais compte un peu quand même (la moitié?)

@@ Ligne 5 : / Ligne 5 : @@
 On génère toutes les possibilités de dispositions des 34 touches sur lesquelles on va placer des lettres ou des symboles de ponctuation (le ê ne compte pas puisqu'il est absent de certains claviers). Il faudra aussi décider des caractères que l'on va placer.
-== Contraintes ==
+=== Contraintes ===
 Cela fait 34! possibilités différentes, c'est à dire ≃ 3 × 10^38 (3 avec 38 zéros derrières…) Il faut donc simplifier poser des contraintes pour réduire les possibilités…
 On va placer des contraintes pour ne pas générer des dispositions totalement aberrantes, par exemple il est évident que certaines lettres doivent être placés sur la rangée de repos, et on peut même affiner en disant que certaines lettres ne peuvent pas être sur l'auriculaire.
+== Sélection des meilleures dispositions ==
+=== Collecte de données ===
+==== Corpus ====
+Français et anglais, ce dernier comptant à 20% ou quelque chose comme ça.
+==== Carte d'accessibilité ====
+Je pense que les cartes d'accessibilité des touches ne sont pas très utiles, dans le sens où elle ne donnent pas assez d'informations pour se donner une idée de la difficulté de frappe d'un digramme/trigramme. Du coup on a du mal à représenter la réalité, on rajoute des contraintes dans tous les sens…
+Au contraire, une carte d'accessibilité des digrammes rend beaucoup mieux compte de la réalité.
+=== Algorithme ===
+==== Général ====
+Cela se passe en différentes étapes:
+* Collecte des données
+* Génération des dispositions
+===== Énergie =====
+L'énergie dépensée pour taper une lettre (nous allons l'appeler E) est calculée en fonction de la carte d'accessibilité des digrammes, mais pas proportionnelle. En effet, on veut beaucoup de malus pour les enchainements difficiles mais pas beaucoup sur les faciles, sinon on risque de favoriser les situations où on a beaucoup d'enchainements très faciles et deux-trois horribles.
+Finalement le but est donc de fluidifier la frappe (plus agréable), afin de ne pas «déconcentrer» celui qui écrit, de ne pas faire peur aux débutants avec certains mots, et si une personne doit écrire souvent un mot (cela arrive souvent dans les domaines de l'informatique par exemple) elle aura moins de chance de tomber sur un truc chiant à écrire.
+==== Mise en forme des données ====
+Les corpus de textes sélectionnés ne suivent souvent pas les règles de typographie française, contiennent «oe» au lieu de «œ», etc. Nous avons déjà un outils pour ça sur le dépôt SVN.
+Je pense qu'on peut aller plus loin en prenant en compte la réforme de l'orthographe de 1990, donc en changeant «chariot» en «charriot», «connaître» en «connaitre», «maître» en «maitre», «porte-monnaie» en «portemonnaie», etc. Du coup ça risque de changer pas mal de statistiques et remettre un certain nombre d'acquis en question…
+==== Formatage des données ====
+Ensuite on traite le corpus complet une seule fois pour le transformer en statistiques intéressantes, de la forme:
+ [digramme] [fréquence]
+L'espace sert de séparateur parce qu'on ne le compte pas dans ces statistiques simplifiées, qui permettront d'éliminer les plus mauvaises dispositions, celle qui font le plus travailler les doigts. En effet, si elles ne sont pas optimisés pour les digrammes, pourquoi le seraient-elle pour des mots? La formule pour calculer l'«énergie» est de la forme:
+ [fréquence] × [énergie]
+On fera varie les critères de sélection pour atteindre un nombre de dispositions raisonnables (tout dépendra des performances du deuxième logiciel qu'on utilisera pour une sélection plus fine des dispositions).
+==== Sélection ====
+Quand on a notre «corpus» réduit de dispositions, on peut faire un maximum de tests calculer différentes statistiques à propos du corpus initial non-transformé.
+Typiquement, il y a plusieurs critères:
+* L'alternance des doigts:
+** pas deux fois le même doigt de suite (compté dans la carte d'accessibilité des digrammes)
+** E(index) > E(majeur) > E(annulaire) > E(auriculaire), l'utilisation de chaque doigt devrait se faire selon une courbe croissante en partant de l'auriculaire (comme la fonction racine carré)
+* L'alternance des mains:
+** malus si une main tape plus de 2 ou 3 caractères (à décider)
+** la barre d'espace compte moins qu'un caractère de l'autre main mais compte un peu quand même (la moitié?)