Hướng Dẫn Bộ Tách Văn Bản

Tách văn bản thành token (từ, ký tự hoặc dòng). Đếm số từ, tần suất token, sao chép và phân tích trong Máy Tính Thống Kê.

Quay lại Bộ Tách Văn Bản

Công cụ này làm gì

Bộ tách Văn bản chia văn bản thành token — từ, ký tự hoặc dòng — và hiển thị mỗi token xuất hiện bao nhiêu lần. Chọn chế độ (từ, ký tự hoặc dòng), dán văn bản và nhận ngay số lượng cùng bảng tần số sắp xếp theo số lần xuất hiện. Sao chép token dạng phân tách dấu phẩy hoặc xuống dòng, sao chép bảng tần số hoặc gửi số lượng tới Bộ máy Thống kê để phân tích sâu hơn. Hữu ích cho đếm từ, phân tích văn bản và chuẩn bị dữ liệu cho công cụ thống kê.

Cách sử dụng

  1. Chọn chế độ — Chọn Từ, Ký tự hoặc Dòng tùy cách bạn muốn tách văn bản.
  2. Nhập hoặc dán văn bản — Gõ hoặc dán vào vùng nhập. Dùng Tạo văn bản mẫu để nhanh chóng điền nội dung mẫu.
  3. Nhấp Tách — Công cụ chia văn bản và hiển thị số token, số duy nhất và bảng tần số.
  4. Sao chép kết quả — Sao chép token ở dạng dấu phẩy hoặc xuống dòng, hoặc sao chép bảng tần số (token, tab, số lần mỗi dòng).
  5. Phân tích thêm — Nhấp Phân tích trong Thống kê để mở Bộ máy Thống kê với số lượng tần số được điền sẵn.

Cách hoạt động

  • Chế độ Từ — Tách theo khoảng trắng và lọc chuỗi rỗng. Khoảng trắng liên tiếp được xem là một dấu phân cách.
  • Chế độ Ký tự — Mỗi ký tự là một token; khoảng trắng, tab và xuống dòng bị loại.
  • Chế độ Dòng — Tách theo xuống dòng (hỗ trợ cả \n và \r\n), cắt khoảng trắng mỗi dòng và lọc dòng rỗng.

Tần số được tính bằng đếm số lần xuất hiện mỗi token và sắp xếp giảm dần theo số lần. Cùng số lần giữ thứ tự xuất hiện đầu tiên.

Tất cả tính toán chạy hoàn toàn trên trình duyệt của bạn. Không có dữ liệu được gửi đến máy chủ.

Trường hợp sử dụng & ví dụ

  • Đếm từ — Lấy tổng số từ và số từ duy nhất trong tài liệu.
  • Phân tích văn bản — Xem từ hoặc ký tự nào xuất hiện thường xuyên nhất.
  • Chuẩn bị dữ liệu — Xuất token sang dạng dấu phẩy hoặc xuống dòng để dùng trong bảng tính hoặc công cụ khác.
  • Quy trình thống kê — Dùng "Phân tích trong Thống kê" để tính trung bình, trung vị, phân phối và phân vị trên số lượng token.
  • NLP và công việc kho ngữ liệu — Tách token nhanh cho văn bản nhỏ đến trung bình trước khi xử lý thêm.

Ví dụ

Với đầu vào: "hello world hello" ở chế độ Từ:

  • Token: hello, world, hello
  • Tần số: hello (2), world (1)

Giới hạn & lưu ý

  • Giới hạn đầu vào — Tối đa 512KB (~512.000 ký tự). Đầu vào lớn hơn trả về lỗi.
  • Chỉ phía máy khách — Không máy chủ; xử lý chạy trên trình duyệt. Đầu vào rất lớn có thể gây lag giao diện ngắn trên thiết bị chậm.
  • Tách đơn giản — Chế độ Từ chỉ tách theo khoảng trắng; không có stemming, lemmatization hay tách token theo ngôn ngữ.
  • Ký tự loại khoảng trắng — Khoảng trắng, tab và xuống dòng không được đếm là token ký tự.

Câu hỏi thường gặp

Các chế độ token nào được hỗ trợ?
Công cụ hỗ trợ ba chế độ — từ (tách theo khoảng trắng), ký tự (mỗi ký tự trừ khoảng trắng) và dòng (tách theo xuống dòng).
Có thể phân tích dữ liệu tần số trong Bộ máy Thống kê không?
Có. Dùng nút "Phân tích trong Thống kê" để gửi số lượng token tới Bộ máy Thống kê để phân tích thêm (trung bình, trung vị, phân phối, v.v.).
Có giới hạn kích thước đầu vào không?
Có. Đầu vào tối đa là 512KB (~512.000 ký tự). Văn bản lớn hơn sẽ hiển thị lỗi.
Văn bản của tôi có rời khỏi thiết bị không?
Không. Toàn bộ tách token chạy hoàn toàn trên trình duyệt của bạn. Không có dữ liệu được gửi đến máy chủ nào.

Tất cả tính toán và chuyển đổi chạy hoàn toàn trên trình duyệt. Không có dữ liệu được gửi đến máy chủ, dữ liệu của bạn không rời khỏi thiết bị.