文本分词器 使用指南

将文本拆分为 token(词、字符或行)。获取词数、token 频率、复制 token,并在统计计算器中分析。

返回 文本分词器

此工具有什么功能

文本分词器将文本拆分为 token(词、字符或行),并显示每个 token 的出现频次。选择模式、粘贴文本即可获得计数和按频次排序的频度表。可复制为逗号或换行分隔的 token,或复制频度表,或将计数发送到统计计算器进行进一步分析。

如何使用

  1. 选择模式 — 词、字符或行。
  2. 输入或粘贴文本 — 使用「生成占位文本」快速填充。
  3. 点击分词 — 拆分并显示 token 数、去重数和频度表。
  4. 复制结果 — 以逗号或换行格式复制 token,或复制频度表。
  5. 进一步分析 — 点击「在统计中分析」打开统计计算器并预填频度计数。

工作原理

  • 词模式 — 按空白分隔并过滤空串。
  • 字符模式 — 每个字符为一个 token;空格、制表符和换行排除。
  • 行模式 — 按换行(\n 或 \r\n)分隔,每行 trim 并过滤空行。

频度按出现次数统计,并按次数降序排序。所有计算均在浏览器内完成,不向任何服务器发送数据。

使用场景与示例

  • 词数统计、文本分析、数据准备、统计流程、NLP 与语料处理。

示例

输入「hello world hello」在词模式下:token 为 hello, world, hello;频度为 hello (2), world (1)。

限制与已知约束

  • 输入上限 512KB。仅客户端。简单分词。字符模式排除空格。

常见问题

支持哪些 token 模式?
三种:词(按空格分隔)、字符(每个字符)、行(按换行分隔)。
能否在统计计算器中分析频度?
可以。使用「在统计中分析」按钮将计数发送到统计计算器。
有无输入大小限制?
有。最大 512KB(约 51.2 万字符)。超出会报错。
我的文本会离开设备吗?
不会。所有分词均在浏览器内完成,不会发送到任何服务器。

所有计算和转换均完全在您的浏览器中运行。不会向任何服务器发送数据,您的输入不会离开您的设备。