此工具有什么功能
文本分词器将文本拆分为 token(词、字符或行),并显示每个 token 的出现频次。选择模式、粘贴文本即可获得计数和按频次排序的频度表。可复制为逗号或换行分隔的 token,或复制频度表,或将计数发送到统计计算器进行进一步分析。
如何使用
- 选择模式 — 词、字符或行。
- 输入或粘贴文本 — 使用「生成占位文本」快速填充。
- 点击分词 — 拆分并显示 token 数、去重数和频度表。
- 复制结果 — 以逗号或换行格式复制 token,或复制频度表。
- 进一步分析 — 点击「在统计中分析」打开统计计算器并预填频度计数。
工作原理
- 词模式 — 按空白分隔并过滤空串。
- 字符模式 — 每个字符为一个 token;空格、制表符和换行排除。
- 行模式 — 按换行(\n 或 \r\n)分隔,每行 trim 并过滤空行。
频度按出现次数统计,并按次数降序排序。所有计算均在浏览器内完成,不向任何服务器发送数据。
使用场景与示例
- 词数统计、文本分析、数据准备、统计流程、NLP 与语料处理。
示例
输入「hello world hello」在词模式下:token 为 hello, world, hello;频度为 hello (2), world (1)。
限制与已知约束
- 输入上限 512KB。仅客户端。简单分词。字符模式排除空格。