Какие режимы токенов поддерживаются?

Три режима — слова (разделение по пробелам), символы (каждый символ кроме пробелов), строки (разделение по переводам строк).

Можно ли анализировать частоты в Калькуляторе статистики?

Да. Кнопка «Анализ в Статистике» отправляет подсчёты токенов в Калькулятор статистики для дальнейшего анализа (среднее, медиана, распределение и т.д.).

Есть ли лимит на размер ввода?

Да. Максимум 512 КБ (~512 000 символов). Более длинный текст приведёт к ошибке.

Покидает ли мой текст устройство?

Нет. Токенизация выполняется полностью в браузере. Никакие данные не отправляются на сервер.

Токенизатор текста — Руководство

Что делает этот инструмент

Токенизатор текста разбивает текст на токены — слова, символы или строки — и показывает, как часто встречается каждый токен. Выберите режим (слова, символы или строки), вставьте текст и получите подсчёт и таблицу частот, отсортированную по количеству. Копирование токенов через запятую или перевод строки, таблицы частот или отправка подсчётов в Калькулятор статистики для углублённого анализа. Полезно для подсчёта слов, анализа текста и подготовки данных для статистических инструментов.

Как использовать

Выберите режим — Слова, Символы или Строки в зависимости от способа разбиения.
Введите или вставьте текст — В область ввода. Кнопка «Сгенерировать текст-заглушку» для быстрого заполнения примером.
Нажмите «Токенизировать» — Инструмент разбивает текст и показывает количество токенов, уникальных и таблицу частот.
Копирование — Токены через запятую или перевод строки, или таблица частот (токен, табуляция, количество на строку).
Дальнейший анализ — Кнопка «Анализ в Статистике» открывает Калькулятор статистики с предзаполненными частотами.

Как это работает

Режим слов — Разделение по пробелам, фильтрация пустых строк. Последовательные пробелы считаются одним разделителем.
Режим символов — Каждый символ — токен; пробелы, табуляции и переводы строк исключаются.
Режим строк — Разделение по переводам строк (поддержка \n и \r\n), trim каждой строки, фильтрация пустых строк.

Частоты считаются подсчётом вхождений каждого токена и сортировкой по убыванию количества. При равенстве сохраняется порядок первого появления.

Все вычисления выполняются в браузере. Никакие данные не отправляются на сервер.

Примеры использования

Подсчёт слов — Общее число слов и уникальных слов в документе.
Анализ текста — Самые частые слова или символы.
Подготовка данных — Экспорт токенов через запятую или перевод строки для таблиц и других инструментов.
Статистический пайплайн — «Анализ в Статистике» для среднего, медианы, распределения и процентилей по частотам.
NLP и корпусная работа — Быстрая токенизация средних и малых текстов перед дальнейшей обработкой.

Пример

Ввод "hello world hello" в режиме Слова:

Токены: hello, world, hello
Частота: hello (2), world (1)

Ограничения

Лимит ввода — Максимум 512 КБ (~512 000 символов). Более длинный ввод возвращает ошибку.
Только на клиенте — Нет сервера; обработка в браузере. Очень большие вводы могут кратковременно тормозить UI на слабых устройствах.
Простая токенизация — Режим слов разбивает только по пробелам; stemming, lemmatization и языко-специфичная токенизация не используются.
Пробелы исключены — Пробелы, табуляции и переводы строк не считаются символьными токенами.

Руководство по Токенизатор текста

Что делает этот инструмент

Как использовать

Как это работает

Примеры использования

Пример

Ограничения

ЧаВо

Руководство по Токенизатор текста

Что делает этот инструмент

Как использовать

Как это работает

Примеры использования

Пример

Ограничения

Связанные глоссарии

ЧаВо

Связанные инструменты