এই সরঞ্জামটি কী করে

Text Tokenizer টেক্সটকে টোকেনে বিভক্ত করে—শব্দ, ক্যারেক্টার বা লাইন—এবং দেখায় প্রতিটি টোকেন কতবার উপস্থিত হয়। একটি মোড (শব্দ, ক্যারেক্টার বা লাইন) বেছে নিন, আপনার টেক্সট পেস্ট করুন এবং তাৎক্ষণিক গণনা প্লাস ঘটনার দ্বারা সাজানো ফ্রিকোয়েন্সি টেবিল পান। টোকেন কমা-বিচ্ছিন্ন বা নিউলাইন-বিচ্ছিন্ন হিসাবে কপি করুন, ফ্রিকোয়েন্সি টেবিল কপি করুন, অথবা গভীর বিশ্লেষণের জন্য Statistics Calculator এ গণনা পাঠান। শব্দ সংখ্যা, টেক্সট বিশ্লেষণ এবং পরিসংখ্যানিক সরঞ্জামের জন্য ডেটা প্রস্তুত করার জন্য দরকারী।

কীভাবে ব্যবহার করবেন

১. মোড নির্বাচন করুন — টেক্সট কীভাবে বিভক্ত করতে চান তার উপর নির্ভর করে Words, Characters বা Lines বেছে নিন। ২. টেক্সট লিখুন বা পেস্ট করুন — ইনপুট এলাকায় টাইপ করুন বা পেস্ট করুন। দ্রুত পূরণ করতে Generate dummy text ব্যবহার করুন। ৩. Tokenize ক্লিক করুন — সরঞ্জামটি টেক্সট বিভক্ত করে এবং টোকেন গণনা, অনন্য গণনা এবং ফ্রিকোয়েন্সি টেবিল প্রদর্শন করে। ৪. ফলাফল কপি করুন — কমা বা নিউলাইন ফরম্যাটে টোকেন কপি করুন, অথবা ফ্রিকোয়েন্সি টেবিল (টোকেন, ট্যাব, লাইনে গণনা) কপি করুন। ৫. আরও বিশ্লেষণ — Statistics Calculator খুলতে ফ্রিকোয়েন্সি গণনা প্রি-ফিল সহ Analyze in Statistics ক্লিক করুন।

কীভাবে কাজ করে

Words মোড — হোয়াইটস্পেসে বিভক্ত করে এবং খালি স্ট্রিং ফিল্টার করে। পরপর স্পেস একটি বিভাজক হিসাবে বিবেচিত।
Characters মোড — প্রতিটি ক্যারেক্টার একটি টোকেন; স্পেস, ট্যাব এবং নিউলাইন বাদ দেওয়া হয়।
Lines মোড — নিউলাইনে বিভক্ত হয় (\n এবং \r\n উভয় হ্যান্ডল করে), প্রতিটি লাইন ট্রিম করে এবং খালি লাইন ফিল্টার করে।

ফ্রিকোয়েন্সি প্রতিটি টোকেনের ঘটনা গণনা করে এবং গণনা অবরোহী দ্বারা সাজিয়ে গণনা করা হয়। টাইগুলি প্রথম উপস্থিতির ক্রম সংরক্ষণ করে।

সমস্ত গণনা সম্পূর্ণভাবে আপনার ব্রাউজারে চলে। কোনো ডেটা কোনো সার্ভারে পাঠানো হয় না।

ব্যবহারের ক্ষেত্র ও উদাহরণ

শব্দ সংখ্যা — একটি দস্তাবেজে মোট শব্দ এবং অনন্য শব্দের সংখ্যা পান।
টেক্সট বিশ্লেষণ — কোন শব্দ বা ক্যারেক্টার সবচেয়ে ঘন ঘন উপস্থিত হয় দেখুন।
ডেটা প্রস্তুতি — স্প্রেডশীট বা অন্য সরঞ্জামে ব্যবহারের জন্য কমা বা নিউলাইন ফরম্যাটে টোকেন এক্সপোর্ট করুন।
পরিসংখ্যান পাইপলাইন — টোকেন গণনার উপর গড়, মধ্যমা, ডিস্ট্রিবিউশন এবং পারসেন্টাইল গণনা করতে "Analyze in Statistics" ব্যবহার করুন।
NLP এবং করপাস ওয়ার্ক — আরও প্রসেসিংয়ের আগে ছোট থেকে মাঝারি টেক্সটের জন্য দ্রুত টোকেনাইজেশন।

উদাহরণ

ইনপুট: "hello world hello" Words মোডে:

টোকেন: hello, world, hello
ফ্রিকোয়েন্সি: hello (২), world (১)

সীমাবদ্ধতা ও পরিচিত সীমা

ইনপুট ক্যাপ — সর্বোচ্চ ৫১২KB (~৫১২,০০০ ক্যারেক্টার)। বড় ইনপুট একটি ত্রুটি ফেরায়।
শুধুমাত্র ক্লায়েন্ট-সাইড — কোনো সার্ভার নেই; প্রসেসিং ব্রাউজারে চলে। ধীর ডিভাইসে খুব বড় ইনপুট সংক্ষিপ্ত UI ল্যাগ সৃষ্টি করতে পারে।
সিম্পল টোকেনাইজেশন — Words মোড শুধুমাত্র হোয়াইটস্পেসে বিভক্ত করে; stemming, lemmatization বা ভাষা-নির্দিষ্ট টোকেনাইজেশন নেই।
ক্যারেক্টার স্পেস বাদ — স্পেস, ট্যাব এবং নিউলাইন ক্যারেক্টার টোকেন হিসাবে গণনা করা হয় না।

টেক্সট টোকেনাইজার গাইড