Руководство по Токенизатор текста

Разбейте текст на токены (слова, символы или строки). Подсчёт слов, частоты, копирование и анализ в калькуляторе статистики.

Назад к Токенизатор текста

Что делает этот инструмент

Токенизатор текста разбивает текст на токены — слова, символы или строки — и показывает, как часто встречается каждый токен. Выберите режим (слова, символы или строки), вставьте текст и получите подсчёт и таблицу частот, отсортированную по количеству. Копирование токенов через запятую или перевод строки, таблицы частот или отправка подсчётов в Калькулятор статистики для углублённого анализа. Полезно для подсчёта слов, анализа текста и подготовки данных для статистических инструментов.

Как использовать

  1. Выберите режимСлова, Символы или Строки в зависимости от способа разбиения.
  2. Введите или вставьте текст — В область ввода. Кнопка «Сгенерировать текст-заглушку» для быстрого заполнения примером.
  3. Нажмите «Токенизировать» — Инструмент разбивает текст и показывает количество токенов, уникальных и таблицу частот.
  4. Копирование — Токены через запятую или перевод строки, или таблица частот (токен, табуляция, количество на строку).
  5. Дальнейший анализ — Кнопка «Анализ в Статистике» открывает Калькулятор статистики с предзаполненными частотами.

Как это работает

  • Режим слов — Разделение по пробелам, фильтрация пустых строк. Последовательные пробелы считаются одним разделителем.
  • Режим символов — Каждый символ — токен; пробелы, табуляции и переводы строк исключаются.
  • Режим строк — Разделение по переводам строк (поддержка \n и \r\n), trim каждой строки, фильтрация пустых строк.

Частоты считаются подсчётом вхождений каждого токена и сортировкой по убыванию количества. При равенстве сохраняется порядок первого появления.

Все вычисления выполняются в браузере. Никакие данные не отправляются на сервер.

Примеры использования

  • Подсчёт слов — Общее число слов и уникальных слов в документе.
  • Анализ текста — Самые частые слова или символы.
  • Подготовка данных — Экспорт токенов через запятую или перевод строки для таблиц и других инструментов.
  • Статистический пайплайн — «Анализ в Статистике» для среднего, медианы, распределения и процентилей по частотам.
  • NLP и корпусная работа — Быстрая токенизация средних и малых текстов перед дальнейшей обработкой.

Пример

Ввод "hello world hello" в режиме Слова:

  • Токены: hello, world, hello
  • Частота: hello (2), world (1)

Ограничения

  • Лимит ввода — Максимум 512 КБ (~512 000 символов). Более длинный ввод возвращает ошибку.
  • Только на клиенте — Нет сервера; обработка в браузере. Очень большие вводы могут кратковременно тормозить UI на слабых устройствах.
  • Простая токенизация — Режим слов разбивает только по пробелам; stemming, lemmatization и языко-специфичная токенизация не используются.
  • Пробелы исключены — Пробелы, табуляции и переводы строк не считаются символьными токенами.

ЧаВо

Какие режимы токенов поддерживаются?
Три режима — слова (разделение по пробелам), символы (каждый символ кроме пробелов), строки (разделение по переводам строк).
Можно ли анализировать частоты в Калькуляторе статистики?
Да. Кнопка «Анализ в Статистике» отправляет подсчёты токенов в Калькулятор статистики для дальнейшего анализа (среднее, медиана, распределение и т.д.).
Есть ли лимит на размер ввода?
Да. Максимум 512 КБ (~512 000 символов). Более длинный текст приведёт к ошибке.
Покидает ли мой текст устройство?
Нет. Токенизация выполняется полностью в браузере. Никакие данные не отправляются на сервер.

Все расчёты и конвертации выполняются в браузере. Никакие данные не отправляются на сервер — ввод не покидает устройство.