यह उपकरण क्या करता है
टेक्स्ट टोकनाइज़र टेक्स्ट को टोकन में विभाजित करता है—शब्द, कैरेक्टर या लाइन—और दिखाता है कि प्रत्येक टोकन कितनी बार आता है। मोड (शब्द, कैरेक्टर या लाइन) चुनें, टेक्स्ट पेस्ट करें और त्वरित गिनती प्लस घटना के अनुसार क्रमबद्ध आवृत्ति तालिका प्राप्त करें। टोकन को अल्पविराम या नई-पंक्ति से अलग कॉपी करें, आवृत्ति तालिका कॉपी करें, या गहन विश्लेषण के लिए सांख्यिकी कैलकुलेटर को गिनती भेजें। शब्द गिनती, टेक्स्ट विश्लेषण और सांख्यिकी उपकरणों के लिए डेटा तैयार करने के लिए उपयोगी।
इसका उपयोग कैसे करें
- मोड चुनें — टेक्स्ट को कैसे विभाजित करना है उसके अनुसार शब्द, कैरेक्टर या लाइन चुनें।
- टेक्स्ट दर्ज या पेस्ट करें — इनपुट क्षेत्र में टाइप या पेस्ट करें। त्वरित भरने के लिए डमी टेक्स्ट जनरेट करें उपयोग करें।
- टोकनाइज़ पर क्लिक करें — उपकरण टेक्स्ट विभाजित करता है और टोकन गिनती, अद्वितीय गिनती और आवृत्ति तालिका प्रदर्शित करता है।
- परिणाम कॉपी करें — अल्पविराम या नई-पंक्ति प्रारूप में टोकन कॉपी करें, या आवृत्ति तालिका (टोकन, टैब, प्रति पंक्ति गिनती) कॉपी करें।
- आगे विश्लेषण — सांख्यिकी कैलकुलेटर में आवृत्ति गिनती पूर्व-भरी खोलने के लिए सांख्यिकी में विश्लेषण करें पर क्लिक करें।
यह कैसे काम करता है
शब्द मोड — रिक्ति पर विभाजित करता है और खाली स्ट्रिंग फ़िल्टर करता है। लगातार रिक्ति एक विभाजक के रूप में मानी जाती है। कैरेक्टर मोड — प्रत्येक कैरेक्टर एक टोकन है; रिक्ति, टैब और नई पंक्ति बाहर रखी जाती हैं। लाइन मोड — नई पंक्तियों पर विभाजित करता है (दोनों \n और \r\n संभालता है), प्रत्येक लाइन ट्रिम करता है और खाली लाइन फ़िल्टर करता है। आवृत्ति प्रत्येक टोकन की घटना गिनकर और गिनती के अनुसार अवरोही क्रमबद्ध करके गणना होती है। टाई पहली उपस्थिति का क्रम संरक्षित करते हैं।
सभी गणना पूरी तरह आपके ब्राउज़र में चलती है। कोई डेटा किसी सर्वर को नहीं भेजा जाता।
उपयोग के मामले और उदाहरण
- शब्द गिनती — दस्तावेज़ में कुल शब्द और अद्वितीय शब्द प्राप्त करें।
- टेक्स्ट विश्लेषण — देखें कि कौन से शब्द या कैरेक्टर सबसे अधिक बार आते हैं।
- डेटा तैयारी — स्प्रैडशीट या अन्य उपकरणों के लिए अल्पविराम या नई-पंक्ति प्रारूप में टोकन एक्सपोर्ट करें।
- सांख्यिकी पाइपलाइन — टोकन गिनती पर माध्य, मध्यिका, वितरण और प्रतिशतक गणना के लिए "सांख्यिकी में विश्लेषण करें" उपयोग करें।
- NLP और कॉर्पस कार्य — आगे प्रोसेसिंग से पहले छोटे से मध्यम टेक्स्ट के लिए त्वरित टोकनाइज़ेशन।
उदाहरण
शब्द मोड में इनपुट "hello world hello" के लिए:
- टोकन:
hello,world,hello - आवृत्ति:
hello(2),world(1)
सीमाएं और ज्ञात बाधाएं
- इनपुट कैप — अधिकतम 512KB (~512,000 कैरेक्टर)। बड़ा इनपुट त्रुटि लौटाता है।
- केवल क्लाइंट-साइड — कोई सर्वर नहीं; प्रोसेसिंग ब्राउज़र में चलती है। बहुत बड़ा इनपुट धीमे डिवाइस पर संक्षिप्त UI लैग कर सकता है।
- सरल टोकनाइज़ेशन — शब्द मोड केवल रिक्ति पर विभाजित करता है; कोई स्टेमिंग, लेमेटाइज़ेशन या भाषा-विशिष्ट टोकनाइज़ेशन नहीं।
- कैरेक्टर रिक्ति बाहर — रिक्ति, टैब और नई पंक्ति कैरेक्टर टोकन के रूप में गिनी नहीं जातीं।