Combien de mots utilise-t-on ? Comment savoir si un chiffre est farfelu ? On vous explique tout

par Maria Candea

Nous avons récemment consacré un petit billet au cas particulier d’Alain Bentolila : cet ancien professeur d’université inonde les médias d’une intox sur des jeunes qui « vivraient avec 400 mots » ou 500, ou 800, tout en sachant pertinemment que cela est faux (billet ici).

Mais il n’est pas le seul à véhiculer des chiffres fantaisistes sur la taille du vocabulaire, et plutôt que vous laisser observer des guerres de chiffres invérifiables, on vous propose de prendre les choses en mains et vérifier par vous-mêmes. Ce n’est pas si compliqué, on vous donne toutes les billes ici et en quelques minutes vous serez autonomes.

Il vous faut d’abord définir votre tâche : vous allez pouvoir facilement vérifier le vocabulaire actif à partir de textes écrits ou discours transcrits. Le vocabulaire passif (les mots connus mais pas utilisés) est très difficile à évaluer et on procède par inférences. On peut passer un mois entier sans avoir jamais besoin d’utiliser les mots « hippopotame » ou « crocodile », et ça ne veut pas dire qu’on ne les connait pas. Restons sur le vocabulaire actif observable, ça fera déjà avancer le schmilblick.

Il vous faut aussi savoir comment on compte les mots. Le vocabulaire d’une personne contient tout d’abord des mots-outils, des pronoms, des déterminants, des conjonctions et des prépositions: « que, le, la, ce, cette, ces, à, de, par, pour, avec, dans, ma, mon, ta, ton, sa, son, ses, et »….). Il y en a presque 300 en français, et on ne peut rien dire sans eux. Il contient aussi des mots des dictionnaires courants qui ne sont pas des mots outils (noms, verbes, adjectifs, adverbes, interjections) : ceux-là dépassent largement les 10000 pour toute personne adulte qui utilise quotidiennement la langue. Et il contient aussi des milliers de noms propres : noms de personnes – très connues ou moins connues, vivantes ou décédées, noms de lieux, noms de marques, de jeux, d’équipes, de groupes de musique…

S’exprimer dans toutes les circonstances de la vie avec quelques centaines de mots est impossible dès qu’on a dépassé l’âge de deux ans. Voilà. Mais ne nous croyez pas sur parole ! On vous donne tout, tout de suite, pour pouvoir le vérifier.

Dernière info pour votre nécessaire théorique : quand on compte les mots on regroupe les différentes formes fléchies, les variantes de nombre, genre, personne, temps : par exemple on va compter un seul mot pour « grand, grande, grands, grandes » ou pour « sait, savoir, saura, sauraient, savez, savons, savent… ». On parle de mots uniques ou mots lemmatisés, et pour compter le nombre de mots d’un texte on a recours à un outil qui s’appelle un lemmatiseur et qui va grouper toutes les formes graphiques d’un « mot ».

Pour vérifier la taille du vocabulaire d’un texte il vous faut donc votre lemmatiseur. Vous en avez un en libre accès pour le français, et sans aucune installation ici : https://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php il vous donne les totaux de votre texte, le détail des mots-outils et une partie du détail des mots lexicaux (les plus fréquents) gratuitement – sinon il faut payer. Si vous voulez un outil plus complet, gratuit, pour avoir vraiment toute la liste lemmatisée d’un texte sans limite, il faut installer un autre logiciel et prendre un peu plus de temps pour le faire marcher : Tree Tagger ici, qui marche pour de nombreuses langues : https://www.cis.lmu.de/~schmid/tools/TreeTagger/

Précision importante avant de passer à la pratique de cet atelier comptage : la pertinence, la réussite ou l’intérêt d’un texte ne se mesure pas à la taille de son vocabulaire. Ne perdons pas de vue qu’il est possible d’une part de dire des choses intéressantes, originales et très pertinentes avec un vocabulaire restreint et précis, et d’autre part de radoter dans un style ampoulé avec un vocabulaire aussi riche que creux !

Passons donc à la pratique.

Vous avez sans doute déjà trouvé des textes comme celui-ci http://www.encyclopedie-incomplete.com/?Les-600-Mots-Francais-Les-Plus qui affirme « il faut savoir que les 600 mots les plus fréquents représenteraient 90 % de n’importe quel texte français, mais qu’il en faudrait quelques milliers pour représenter 95 % de n’importe quel texte ». La seule chose qui est vraie là-dedans c’est qu’il y a une grande part des textes qui est faite d’un nombre réduit de mots (les mots-outils en particulier, qui représentent environ un tiers des mots d’un texte, en chiffres bruts) et qu’il y a une très grande part de mots dans les textes qui n’apparaissent qu’une seule fois. Mais quel est l’intérêt, quand on parle de richesse du vocabulaire, de s’exprimer en mots bruts ? Si on vous dit qu’un tiers de vos mots bruts, ça se réduit à une petite page de « à, de, le, la, ce, c’est, je, tu, elle, il… », en quoi ça vous renseigne sur le vocabulaire ? En rien. Les chiffres avancés sont faux s’il s’agit de la taille du vocabulaire, donc du nombre de mots uniques. On ne fait pas grand-chose avec 600 mots, et certainement pas 90% des mots de n’importe quel texte !

Prenons le lemmatiseur en libre accès donné plus haut et copions dans le cadre prévu trois textes, trois articles de presse. On a choisi ceux-ci (mais vous pourrez prendre vos propres textes, vos mails, vos conversations exportées de votre téléphone, des paroles de chansons, des textes littéraires, des blogs, des forums, … ce que vous voulez).

Notre corpus : 1/ un article de « Libération » sur l’extrême droite aux élections européennes : https://www.liberation.fr/politique/elections/europeennes-au-rn-malika-sorel-une-recrue-qui-va-etre-dure-a-gerer-20240405_6TRPT7IGM5AVTCRG7VI6QMAUSE/

2/ un article de Slate sur les lettres de motivation écrites avec ChatGPT : https://www.slate.fr/story/266396/ecrire-lettre-motivation-avec-chatgpt-intelligence-artificielle-bonne-mauvaise-idee-candidature-offre-emploi-recrutement-travail

3/ un article de The Conversation sur le rapport des médecins à l’incertitude dans leurs prises de décision : https://theconversation.com/les-medecins-souffrent-ils-de-surconfiance-lorsquils-prennent-des-decisions-dans-lincertitude-221273

Si on colle ces trois textes l’un après l’autre dans le lemmatiseur https://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php on obtient au final ceci :

– Total brut : 5192 mots

» 3572 mots hors stop words (69 %)

» 1620 stop words (31%)

– Total 1411 mots uniques

» 1342 mots hors stop words (95 %)

» 69 stop words (5 %)

Cela veut dire que nos trois articles réunis comptaient 5192 mots bruts, dont pratiquement le tiers c’est nos fameux mots-outils ; ça, c’est le décompte brut, vous vous souvenez ? Un tiers de mots-outils. Mais si on regroupe les formes différentes et les mots répétés plusieurs fois on n’a que 1411 mots uniques (par exemple le verbe « avoir » est employé 202 fois sous différentes formes dans ces trois articles, mais il ne compte que pour un seul « mot unique » après lemmatisation ; le mot « exemple » est employé 8 fois).

Mais quand même ! 1411 mots uniques dans trois articles pris au pif ! Dont seulement 69 sont des mots-outils, comme « le, la, à, de », ces petits mots peu nombreux dans l’absolu mais qui se répètent des centaines de fois. Avec 600 mots uniques, on peut écrire 40% de trois petits articles. Pas grand-chose, donc. Maintenant, on peut se payer le luxe de regarder de près la liste de l’Encyclopédie incomplète, les fameux 600 mots les plus fréquents http://www.encyclopedie-incomplete.com/?Les-600-Mots-Francais-Les-Plus, pour voir un peu ce qui manque. Déjà, il manque tous les mots-outils, c’est ballot, vous avez compris. Il manque aussi tous les adverbes, dame ! Il manque tous les noms propres, pratique pour écrire des textes sans évoquer personne, aucun lieu, aucune marque… Mais même dans la liste des noms communs, il manque « étude, étudiant », il manque « internet, site, méthode, candidature, culture, lien, décision, résultat, immigration, façon…. », dans les verbes il manque « avouer, cadrer, cliquer, intégrer, employer, embaucher, préciser, … », c’est simple, il manque dans cette liste 800 mots qui figurent dans nos trois petits articles de presse. On ne sait pas bien d’où sort cette liste de 600 mots.

Nous n’avons pas trouvé d’adulte capable de tenir des conversations orales dans ses situations les plus courantes, banales et quotidiennes avec moins de 10000 mots. Ce serait un exercice oulipien de réussir une telle performance. Et on ne parle pas de vocabulaire passif, car celui-ci est encore plus énorme pour n’importe quel individu ! Prenez quelques outils et n’hésitez pas à vérifier par vous-même.

Bonus profs : Et si vous enseignez, des petits exercices de création textuelle avec des contraintes draconiennes sur le nombre de mots-lemmes autorisés ou requis, cela pourrait être amusant et instructif pour prendre conscience de la richesse de notre vocabulaire courant. Il est facile de copier chaque texte produit par les élèves dans un lemmatiseur et de fixer une limite maximale, pour obliger à diminuer le nombre de lemmes d’un texte en prenant des périphrases ou des synonymes imprécis (de type « faire, donner, truc, machin »). Et ensuite même exercice pour augmenter le nombre de lemmes sans augmenter le nombre de mots, à partir d’un texte de départ donné. Le lemmatiseur permet l’autocorrection immédiate. Cela permet aussi de tester dans quels cas la diversification du vocabulaire apporte de la précision utile et dans quel cas cela relève du jeu stylistique.