O que esta ferramenta faz
O Tokenizador de texto divide o texto em tokens — palavras, caracteres ou linhas — e mostra com que frequência cada token aparece. Escolha um modo (palavras, caracteres ou linhas), cole seu texto e obtenha uma contagem instantânea mais uma tabela de frequência ordenada por ocorrência. Copie tokens separados por vírgula ou por linha, copie a tabela de frequência, ou envie as contagens para a Calculadora de estatísticas para análise mais profunda. Útil para contagem de palavras, análise de texto e preparação de dados para ferramentas estatísticas.
Como usar
- Selecione o modo — Escolha Palavras, Caracteres ou Linhas dependendo de como deseja dividir o texto.
- Insira ou cole o texto — Digite ou cole na área de entrada. Use Gerar texto fictício para preencher rapidamente com conteúdo de amostra.
- Clique em Tokenizar — A ferramenta divide o texto e exibe contagem de tokens, contagem única e tabela de frequência.
- Copie os resultados — Copie tokens em formato vírgula ou por linha, ou copie a tabela de frequência (token, tab, contagem por linha).
- Analise mais — Clique em Analisar em Estatísticas para abrir a Calculadora de estatísticas com as contagens de frequência pré-preenchidas.
Como funciona
- Modo Palavras — Divide por espaços em branco e filtra strings vazias. Espaços consecutivos são tratados como um separador.
- Modo Caracteres — Cada caractere é um token; espaços, tabs e quebras de linha são excluídos.
- Modo Linhas — Divide por quebras de linha (lida com
\ne\r\n), remove espaços de cada linha e filtra linhas vazias.
A frequência é calculada contando as ocorrências de cada token e ordenando por contagem decrescente. Empates preservam a ordem da primeira aparição.
Toda a computação é executada inteiramente no seu navegador. Nenhum dado é enviado a nenhum servidor.
Casos de uso e exemplos
- Contagem de palavras — Obtenha o número total de palavras e palavras únicas em um documento.
- Análise de texto — Veja quais palavras ou caracteres aparecem com mais frequência.
- Preparação de dados — Exporte tokens em formato vírgula ou por linha para uso em planilhas ou outras ferramentas.
- Pipeline de estatísticas — Use "Analisar em Estatísticas" para calcular média, mediana, distribuição e percentis nas contagens de tokens.
- NLP e corpus — Tokenização rápida para textos pequenos a médios antes de processamento adicional.
Exemplo
Para entrada: "hello world hello" no modo Palavras:
- Tokens:
hello,world,hello - Frequência:
hello(2),world(1)
Limitações e restrições conhecidas
- Limite de entrada — Máximo 512KB (~512.000 caracteres). Entrada maior retorna erro.
- Apenas no cliente — Sem servidor; o processamento é executado no navegador. Entradas muito grandes podem causar breve atraso na UI em dispositivos mais lentos.
- Tokenização simples — O modo palavras divide apenas por espaços em branco; sem stemming, lematização ou tokenização específica de idioma.
- Caracteres excluem espaços — Espaços, tabs e quebras de linha não são contados como tokens de caractere.