Mode token apa yang didukung?

Alat mendukung tiga mode — kata (dipisah pada whitespace), karakter (setiap karakter kecuali spasi), dan baris (dipisah pada baris baru).

Bisakah saya menganalisis data frekuensi di Kalkulator Statistik?

Ya. Gunakan tombol "Analisis di Statistik" untuk mengirim jumlah token ke Kalkulator Statistik untuk analisis lebih lanjut (mean, median, distribusi, dll.).

Apakah ada batas ukuran input?

Ya. Input maksimum 512KB (~512.000 karakter). Teks lebih besar akan menampilkan error.

Tokeniser Teks — Panduan

Apa yang dilakukan alat ini

Tokeniser Teks membagi teks menjadi token — kata, karakter, atau baris — dan menunjukkan seberapa sering setiap token muncul. Pilih mode (kata, karakter, atau baris), tempel teks Anda, dan dapatkan jumlah instan plus tabel frekuensi yang diurutkan berdasarkan kemunculan. Salin token sebagai dipisahkan koma atau baris baru, salin tabel frekuensi, atau kirim jumlah ke Kalkulator Statistik untuk analisis lebih mendalam. Berguna untuk jumlah kata, analisis teks, dan menyiapkan data untuk alat statistik.

Cara menggunakannya

Pilih mode — Pilih Kata, Karakter, atau Baris tergantung bagaimana Anda ingin membagi teks.
Masukkan atau tempel teks — Ketik atau tempel ke area input. Gunakan Hasilkan teks dummy untuk mengisi cepat dengan konten sampel.
Klik Tokenisasi — Alat membagi teks dan menampilkan jumlah token, jumlah unik, dan tabel frekuensi.
Salin hasil — Salin token dalam format koma atau baris baru, atau salin tabel frekuensi (token, tab, jumlah per baris).
Analisis lebih lanjut — Klik Analisis di Statistik untuk membuka Kalkulator Statistik dengan jumlah frekuensi yang sudah diisi.

Cara kerjanya

Mode kata — Memisahkan pada whitespace dan menyaring string kosong. Spasi berurutan diperlakukan sebagai satu pemisah.
Mode karakter — Setiap karakter adalah token; spasi, tab, dan baris baru dikecualikan.
Mode baris — Memisahkan pada baris baru (menangani \n dan \r\n), memangkas setiap baris, dan menyaring baris kosong.

Frekuensi dihitung dengan menghitung kemunculan setiap token dan mengurutkan menurut jumlah menurun. Seri mempertahankan urutan kemunculan pertama.

Semua komputasi berjalan sepenuhnya di browser Anda. Tidak ada data yang dikirim ke server mana pun.

Kasus penggunaan & contoh

Jumlah kata — Dapatkan total jumlah kata dan kata unik dalam dokumen.
Analisis teks — Lihat kata atau karakter mana yang paling sering muncul.
Persiapan data — Ekspor token ke format koma atau baris baru untuk digunakan di spreadsheet atau alat lain.
Pipeline statistik — Gunakan "Analisis di Statistik" untuk menghitung mean, median, distribusi, dan persentil pada jumlah token.
NLP dan kerja korpus — Tokenisasi cepat untuk teks kecil hingga menengah sebelum pemrosesan lebih lanjut.

Contoh

Untuk input: "hello world hello" dalam mode Kata:

Token: hello, world, hello
Frekuensi: hello (2), world (1)

Batasan & kendala

Batas input — Maksimum 512KB (~512.000 karakter). Input lebih besar mengembalikan error.
Hanya sisi klien — Tidak ada server; pemrosesan berjalan di browser. Input sangat besar dapat menyebabkan jeda UI singkat pada perangkat lambat.
Tokenisasi sederhana — Mode kata memisahkan pada whitespace saja; tidak ada stemming, lemmatization, atau tokenisasi spesifik bahasa.
Karakter mengecualikan spasi — Spasi, tab, dan baris baru tidak dihitung sebagai token karakter.

Panduan Tokeniser Teks

Apa yang dilakukan alat ini

Cara menggunakannya

Cara kerjanya

Kasus penggunaan & contoh

Contoh

Batasan & kendala

FAQ

Panduan Tokeniser Teks

Apa yang dilakukan alat ini

Cara menggunakannya

Cara kerjanya

Kasus penggunaan & contoh

Contoh

Batasan & kendala

Glosarium terkait

FAQ

Alat terkait