Apa yang dilakukan alat ini
Tokeniser Teks membagi teks menjadi token — kata, karakter, atau baris — dan menunjukkan seberapa sering setiap token muncul. Pilih mode (kata, karakter, atau baris), tempel teks Anda, dan dapatkan jumlah instan plus tabel frekuensi yang diurutkan berdasarkan kemunculan. Salin token sebagai dipisahkan koma atau baris baru, salin tabel frekuensi, atau kirim jumlah ke Kalkulator Statistik untuk analisis lebih mendalam. Berguna untuk jumlah kata, analisis teks, dan menyiapkan data untuk alat statistik.
Cara menggunakannya
- Pilih mode — Pilih Kata, Karakter, atau Baris tergantung bagaimana Anda ingin membagi teks.
- Masukkan atau tempel teks — Ketik atau tempel ke area input. Gunakan Hasilkan teks dummy untuk mengisi cepat dengan konten sampel.
- Klik Tokenisasi — Alat membagi teks dan menampilkan jumlah token, jumlah unik, dan tabel frekuensi.
- Salin hasil — Salin token dalam format koma atau baris baru, atau salin tabel frekuensi (token, tab, jumlah per baris).
- Analisis lebih lanjut — Klik Analisis di Statistik untuk membuka Kalkulator Statistik dengan jumlah frekuensi yang sudah diisi.
Cara kerjanya
- Mode kata — Memisahkan pada whitespace dan menyaring string kosong. Spasi berurutan diperlakukan sebagai satu pemisah.
- Mode karakter — Setiap karakter adalah token; spasi, tab, dan baris baru dikecualikan.
- Mode baris — Memisahkan pada baris baru (menangani
\ndan\r\n), memangkas setiap baris, dan menyaring baris kosong.
Frekuensi dihitung dengan menghitung kemunculan setiap token dan mengurutkan menurut jumlah menurun. Seri mempertahankan urutan kemunculan pertama.
Semua komputasi berjalan sepenuhnya di browser Anda. Tidak ada data yang dikirim ke server mana pun.
Kasus penggunaan & contoh
- Jumlah kata — Dapatkan total jumlah kata dan kata unik dalam dokumen.
- Analisis teks — Lihat kata atau karakter mana yang paling sering muncul.
- Persiapan data — Ekspor token ke format koma atau baris baru untuk digunakan di spreadsheet atau alat lain.
- Pipeline statistik — Gunakan "Analisis di Statistik" untuk menghitung mean, median, distribusi, dan persentil pada jumlah token.
- NLP dan kerja korpus — Tokenisasi cepat untuk teks kecil hingga menengah sebelum pemrosesan lebih lanjut.
Contoh
Untuk input: "hello world hello" dalam mode Kata:
- Token:
hello,world,hello - Frekuensi:
hello(2),world(1)
Batasan & kendala
- Batas input — Maksimum 512KB (~512.000 karakter). Input lebih besar mengembalikan error.
- Hanya sisi klien — Tidak ada server; pemrosesan berjalan di browser. Input sangat besar dapat menyebabkan jeda UI singkat pada perangkat lambat.
- Tokenisasi sederhana — Mode kata memisahkan pada whitespace saja; tidak ada stemming, lemmatization, atau tokenisasi spesifik bahasa.
- Karakter mengecualikan spasi — Spasi, tab, dan baris baru tidak dihitung sebagai token karakter.