Что делает этот инструмент
Токенизатор текста разбивает текст на токены — слова, символы или строки — и показывает, как часто встречается каждый токен. Выберите режим (слова, символы или строки), вставьте текст и получите подсчёт и таблицу частот, отсортированную по количеству. Копирование токенов через запятую или перевод строки, таблицы частот или отправка подсчётов в Калькулятор статистики для углублённого анализа. Полезно для подсчёта слов, анализа текста и подготовки данных для статистических инструментов.
Как использовать
- Выберите режим — Слова, Символы или Строки в зависимости от способа разбиения.
- Введите или вставьте текст — В область ввода. Кнопка «Сгенерировать текст-заглушку» для быстрого заполнения примером.
- Нажмите «Токенизировать» — Инструмент разбивает текст и показывает количество токенов, уникальных и таблицу частот.
- Копирование — Токены через запятую или перевод строки, или таблица частот (токен, табуляция, количество на строку).
- Дальнейший анализ — Кнопка «Анализ в Статистике» открывает Калькулятор статистики с предзаполненными частотами.
Как это работает
- Режим слов — Разделение по пробелам, фильтрация пустых строк. Последовательные пробелы считаются одним разделителем.
- Режим символов — Каждый символ — токен; пробелы, табуляции и переводы строк исключаются.
- Режим строк — Разделение по переводам строк (поддержка
\nи\r\n), trim каждой строки, фильтрация пустых строк.
Частоты считаются подсчётом вхождений каждого токена и сортировкой по убыванию количества. При равенстве сохраняется порядок первого появления.
Все вычисления выполняются в браузере. Никакие данные не отправляются на сервер.
Примеры использования
- Подсчёт слов — Общее число слов и уникальных слов в документе.
- Анализ текста — Самые частые слова или символы.
- Подготовка данных — Экспорт токенов через запятую или перевод строки для таблиц и других инструментов.
- Статистический пайплайн — «Анализ в Статистике» для среднего, медианы, распределения и процентилей по частотам.
- NLP и корпусная работа — Быстрая токенизация средних и малых текстов перед дальнейшей обработкой.
Пример
Ввод "hello world hello" в режиме Слова:
- Токены:
hello,world,hello - Частота:
hello(2),world(1)
Ограничения
- Лимит ввода — Максимум 512 КБ (~512 000 символов). Более длинный ввод возвращает ошибку.
- Только на клиенте — Нет сервера; обработка в браузере. Очень большие вводы могут кратковременно тормозить UI на слабых устройствах.
- Простая токенизация — Режим слов разбивает только по пробелам; stemming, lemmatization и языко-специфичная токенизация не используются.
- Пробелы исключены — Пробелы, табуляции и переводы строк не считаются символьными токенами.