À quoi sert cet outil
L'outil Tokeniseur de texte divise le texte en tokens — mots, caractères ou lignes — et affiche la fréquence de chaque token. Choisissez un mode, collez votre texte et obtenez instantanément le décompte et un tableau de fréquence trié. Copiez les tokens en CSV ou par ligne, copiez le tableau de fréquence, ou envoyez les comptages au Calculateur statistique. Utile pour les comptages de mots, l'analyse de texte et la préparation de données.
Comment l'utiliser
- Sélectionnez le mode — Mots, Caractères ou Lignes.
- Entrez ou collez le texte — Utilisez « Générer texte fictif » pour remplir rapidement.
- Cliquez sur Tokeniser — L'outil divise et affiche le décompte et le tableau de fréquence.
- Copiez les résultats — Tokens en virgule ou retour à la ligne, ou tableau de fréquence.
- Analysez davantage — Cliquez « Analyser dans les statistiques » pour ouvrir le calculateur avec les données préremplies.
Comment ça fonctionne
- Mode Mots — Séparation sur espaces, filtrage des chaînes vides.
- Mode Caractères — Chaque caractère est un token ; espaces, tabulations et retours à la ligne exclus.
- Mode Lignes — Séparation sur retours à la ligne (\n ou \r\n), chaque ligne trimée.
La fréquence est calculée par comptage des occurrences, tri par nombre décroissant. Tout le traitement s'effectue dans votre navigateur. Aucune donnée n'est envoyée à un serveur.
Cas d'usage et exemples
- Comptage de mots — Obtenir le nombre total et unique de mots.
- Analyse de texte — Voir les mots ou caractères les plus fréquents.
- Préparation de données — Exporter des tokens pour tableurs ou autres outils.
- Pipeline statistique — Envoyer les comptages au Calculateur statistique pour moyenne, médiane, distribution.
Exemple
Pour « hello world hello » en mode Mots : tokens hello, world, hello ; fréquence hello (2), world (1).
Limitations et contraintes connues
- Limite d'entrée — Maximum 512 Ko (~512 000 caractères).
- Côté client uniquement — Pas de serveur.
- Tokenisation simple — Mode mots : séparation sur espaces uniquement.
- Caractères — Espaces, tabulations et retours à la ligne exclus.