टेक्स्ट टोकनाइज़र गाइड

टेक्स्ट को टोकन में विभाजित करें (शब्द, अक्षर या पंक्तियाँ)। शब्द गिनती, टोकन आवृत्ति प्राप्त करें, टोकन कॉपी करें और सांख्यिकी कैलकुलेटर में विश्लेषण करें।

टेक्स्ट टोकनाइज़र पर वापस

यह उपकरण क्या करता है

टेक्स्ट टोकनाइज़र टेक्स्ट को टोकन में विभाजित करता है—शब्द, कैरेक्टर या लाइन—और दिखाता है कि प्रत्येक टोकन कितनी बार आता है। मोड (शब्द, कैरेक्टर या लाइन) चुनें, टेक्स्ट पेस्ट करें और त्वरित गिनती प्लस घटना के अनुसार क्रमबद्ध आवृत्ति तालिका प्राप्त करें। टोकन को अल्पविराम या नई-पंक्ति से अलग कॉपी करें, आवृत्ति तालिका कॉपी करें, या गहन विश्लेषण के लिए सांख्यिकी कैलकुलेटर को गिनती भेजें। शब्द गिनती, टेक्स्ट विश्लेषण और सांख्यिकी उपकरणों के लिए डेटा तैयार करने के लिए उपयोगी।

इसका उपयोग कैसे करें

  1. मोड चुनें — टेक्स्ट को कैसे विभाजित करना है उसके अनुसार शब्द, कैरेक्टर या लाइन चुनें।
  2. टेक्स्ट दर्ज या पेस्ट करें — इनपुट क्षेत्र में टाइप या पेस्ट करें। त्वरित भरने के लिए डमी टेक्स्ट जनरेट करें उपयोग करें।
  3. टोकनाइज़ पर क्लिक करें — उपकरण टेक्स्ट विभाजित करता है और टोकन गिनती, अद्वितीय गिनती और आवृत्ति तालिका प्रदर्शित करता है।
  4. परिणाम कॉपी करें — अल्पविराम या नई-पंक्ति प्रारूप में टोकन कॉपी करें, या आवृत्ति तालिका (टोकन, टैब, प्रति पंक्ति गिनती) कॉपी करें।
  5. आगे विश्लेषण — सांख्यिकी कैलकुलेटर में आवृत्ति गिनती पूर्व-भरी खोलने के लिए सांख्यिकी में विश्लेषण करें पर क्लिक करें।

यह कैसे काम करता है

शब्द मोड — रिक्ति पर विभाजित करता है और खाली स्ट्रिंग फ़िल्टर करता है। लगातार रिक्ति एक विभाजक के रूप में मानी जाती है। कैरेक्टर मोड — प्रत्येक कैरेक्टर एक टोकन है; रिक्ति, टैब और नई पंक्ति बाहर रखी जाती हैं। लाइन मोड — नई पंक्तियों पर विभाजित करता है (दोनों \n और \r\n संभालता है), प्रत्येक लाइन ट्रिम करता है और खाली लाइन फ़िल्टर करता है। आवृत्ति प्रत्येक टोकन की घटना गिनकर और गिनती के अनुसार अवरोही क्रमबद्ध करके गणना होती है। टाई पहली उपस्थिति का क्रम संरक्षित करते हैं।

सभी गणना पूरी तरह आपके ब्राउज़र में चलती है। कोई डेटा किसी सर्वर को नहीं भेजा जाता।

उपयोग के मामले और उदाहरण

  • शब्द गिनती — दस्तावेज़ में कुल शब्द और अद्वितीय शब्द प्राप्त करें।
  • टेक्स्ट विश्लेषण — देखें कि कौन से शब्द या कैरेक्टर सबसे अधिक बार आते हैं।
  • डेटा तैयारी — स्प्रैडशीट या अन्य उपकरणों के लिए अल्पविराम या नई-पंक्ति प्रारूप में टोकन एक्सपोर्ट करें।
  • सांख्यिकी पाइपलाइन — टोकन गिनती पर माध्य, मध्यिका, वितरण और प्रतिशतक गणना के लिए "सांख्यिकी में विश्लेषण करें" उपयोग करें।
  • NLP और कॉर्पस कार्य — आगे प्रोसेसिंग से पहले छोटे से मध्यम टेक्स्ट के लिए त्वरित टोकनाइज़ेशन।

उदाहरण

शब्द मोड में इनपुट "hello world hello" के लिए:

  • टोकन: hello, world, hello
  • आवृत्ति: hello (2), world (1)

सीमाएं और ज्ञात बाधाएं

  • इनपुट कैप — अधिकतम 512KB (~512,000 कैरेक्टर)। बड़ा इनपुट त्रुटि लौटाता है।
  • केवल क्लाइंट-साइड — कोई सर्वर नहीं; प्रोसेसिंग ब्राउज़र में चलती है। बहुत बड़ा इनपुट धीमे डिवाइस पर संक्षिप्त UI लैग कर सकता है।
  • सरल टोकनाइज़ेशन — शब्द मोड केवल रिक्ति पर विभाजित करता है; कोई स्टेमिंग, लेमेटाइज़ेशन या भाषा-विशिष्ट टोकनाइज़ेशन नहीं।
  • कैरेक्टर रिक्ति बाहर — रिक्ति, टैब और नई पंक्ति कैरेक्टर टोकन के रूप में गिनी नहीं जातीं।

सभी गणना और रूपांतरण पूरी तरह आपके ब्राउज़र में चलते हैं। कोई डेटा किसी सर्वर को नहीं भेजा जाता, इसलिए आपकी इनपुट कभी भी आपके डिवाइस से बाहर नहीं जाती।