आर में टेक्स्ट से कीवर्ड कैसे निकालें?

टेक्स्ट से कीवर्ड निष्कर्षण के लिए उपयोग किए गए हाइलाइट किए गए कोड स्निपेट के साथ आर इंटरफ़ेस को दर्शाने वाली एक छवि।

कीवर्ड एक्सट्रैक्शन क्या है?

पाठ विश्लेषण तकनीक का उपयोग करते हुए कीवर्ड निष्कर्षण स्वचालित रूप से एक पाठ से सबसे अधिक उपयोग किए जाने वाले और सबसे महत्वपूर्ण शब्दों और अभिव्यक्तियों को निकालता है। यह पाठ की सामग्री को सारांशित करने और चर्चा किए गए मुख्य विषयों को पहचानने में मदद करता है, जो बाजार अनुसंधान, भावना विश्लेषण और अन्य प्रकार के डेटा विश्लेषण के लिए सहायक है। यह तकनीक वाक्य एम्बेडिंग का लाभ उठाती है और वास्तविक समय में डेटा के बड़े सेट का विश्लेषण कर सकती है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) (कंप्यूटर विज्ञान का एक क्षेत्र) के साथ मशीन लर्निंग आर्टिफिशियल इंटेलिजेंस (एआई) मानव भाषा को तोड़ता है ताकि मशीनें इसे समझ सकें और इसका विश्लेषण कर सकें। खोजशब्द निष्कर्षण आने वाले सर्वेक्षण प्रतिक्रियाओं को टैग करने या तत्काल ग्राहक प्रश्नों का जवाब देने जैसे कार्यप्रवाहों को स्वचालित करता है। तकनीक ग्रंथों और उनमें शामिल शब्दों के बारे में भाषाई और अर्थपूर्ण जानकारी का उपयोग करती है। टेक्स्ट में सबसे प्रासंगिक कीवर्ड निकालने के लिए अलग-अलग मशीन लर्निंग एल्गोरिदम और तकनीकें हैं।

कीवर्ड निकालना क्यों महत्वपूर्ण है?

कीवर्ड एक्सट्रैक्शन और कीफ्रेज़ एक्सट्रैक्शन कई कारणों से महत्वपूर्ण हैं:

  1. सर्च इंजन ऑप्टिमाइजेशन (SEO) : कीवर्ड निष्कर्षण एक दस्तावेज़ में सबसे महत्वपूर्ण शब्दों और वाक्यांशों की पहचान करने में मदद करता है, जिसका उपयोग खोज इंजनों के लिए वेबसाइट सामग्री को अनुकूलित करने के लिए किया जा सकता है।
  2. टेक्स्ट सारांशीकरण: कीवर्ड निष्कर्षण का उपयोग टेक्स्ट के मुख्य विषय का प्रतिनिधित्व करने वाले सबसे महत्वपूर्ण शब्दों और वाक्यांशों की पहचान करके दस्तावेज़ को सारांशित करने के लिए किया जा सकता है।
  3. टेक्स्ट वर्गीकरण: कीवर्ड एक्सट्रैक्शन का उपयोग टेक्स्ट दस्तावेज़ों को उनमें मौजूद कीवर्ड के आधार पर विभिन्न श्रेणियों में वर्गीकृत करने के लिए किया जा सकता है। यह भाव विश्लेषण जैसे अनुप्रयोगों में उपयोगी है।
  4. सूचना पुनर्प्राप्ति: खोजशब्द निष्कर्षण का उपयोग उपयोगकर्ता की खोज क्वेरी से मेल खाने वाले प्रासंगिक खोजशब्दों की पहचान करके सूचना पुनर्प्राप्ति प्रणालियों की सटीकता में सुधार के लिए किया जा सकता है।

आर में कीवर्ड एक्सट्रैक्शन कैसे करें?

यहाँ कुछ खोजशब्द निष्कर्षण तकनीकें और उनके उपयोग के उदाहरण दिए गए हैं:

  • संज्ञाओं की पहचान करने के लिए पार्ट्स ऑफ स्पीच टैगिंग करके कीवर्ड खोजें
  • कोलोकेशन और सह-घटनाओं के आधार पर कीवर्ड खोजें
  • टेक्स्टरैंक एल्गोरिथम के आधार पर कीवर्ड खोजें
  • RAKE (रैपिड ऑटोमैटिक कीवर्ड एक्सट्रैक्शन) के आधार पर कीवर्ड खोजें
  • निर्भरता पार्सिंग के परिणामों के आधार पर कीवर्ड खोजें (पाठ का विषय प्राप्त करना)
टेक्स्ट से कीवर्ड निकालना

संज्ञा निकालना

कीवर्ड खोजने का एक आसान तरीका संज्ञाओं को देखना है। यदि आपने udpipe पैकेज का उपयोग करके टेक्स्ट को एनोटेट किया है, तो प्रत्येक शब्द में भाषण टैग का हिस्सा होता है:

कोड:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

कोलोकेशन और सह-घटनाएँ

बहु-शब्द अभिव्यक्ति प्राप्त करें या तो कोलोकेशन (शब्द एक दूसरे का अनुसरण करते हैं), प्रत्येक वाक्य के भीतर शब्द सह-घटनाओं पर, या शब्दों की सह-घटनाओं पर जो एक दूसरे के पड़ोस में हैं।

कोड:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

टेक्स्टरैंक (गूगल पेजरैंक द्वारा आदेशित शब्द नेटवर्क)

टेक्स्टरैंक खोजशब्दों के लिए एक अन्य निष्कर्षण विधि है। टेक्सट्रैंक आर पैकेज टेक्सट्रैंक एल्गोरिथम को लागू करता है। टेक्सट्रैंक एल्गोरिथम पाठ सारांशीकरण और कीवर्ड निष्कर्षण की अनुमति देता है। एक शब्द नेटवर्क का निर्माण करने के लिए, एल्गोरिथम जाँचता है कि क्या शब्द एक दूसरे का अनुसरण करते हैं। ‘गूगल पेजरैंक’ एल्गोरिद्म प्रासंगिक शब्द निकाल रहा है। प्रासंगिक शब्द जो एक दूसरे का अनुसरण करते हैं, एक साथ मिलकर कीवर्ड प्राप्त करते हैं। टेक्स्टरैंक मूल पाठ से उत्पन्न नहीं होता है, क्योंकि यह एक ग्राफ-आधारित दृष्टिकोण है।

कोड:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

रैपिड स्वचालित कीवर्ड एक्सट्रैक्शन: रेक

RAKE अगला बुनियादी एल्गोरिथम है जो रैपिड ऑटोमैटिक कीवर्ड एक्सट्रैक्शन के लिए एक संक्षिप्त शब्द है। RAKE नेचुरल लैंग्वेज प्रोसेसिंग में एक डोमेन-इंडिपेंडेंट कीवर्ड एक्सट्रैक्शन एल्गोरिद्म है।

  1. प्रत्येक शब्द के लिए एक अंक की गणना करना जो किसी भी उम्मीदवार कीवर्ड का हिस्सा है, द्वारा किया जाता है
    • कैंडिडेट कीवर्ड्स के शब्दों के बीच, एल्गोरिथ्म देखता है कि प्रत्येक शब्द कितनी बार हो रहा है और कितनी बार यह अन्य शब्दों के साथ सह-होता है
    • प्रत्येक शब्द को एक अंक मिलता है जो कि शब्द डिग्री का अनुपात होता है (कितनी बार यह दूसरे शब्दों के साथ सह-होता है) शब्द आवृत्ति के लिए
  2. पूर्ण उम्मीदवार कीवर्ड के लिए एक RAKE स्कोर की गणना प्रत्येक शब्द के स्कोर को जोड़ कर की जाती है जो उम्मीदवार कीवर्ड को परिभाषित करता है

कोड:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

नाममात्र विषय और उसके विशेषण प्राप्त करने के लिए निर्भरता पार्सिंग आउटपुट का उपयोग करें

जब आप udpipe का उपयोग करके एनोटेशन निष्पादित करते हैं, तो dep_rel फ़ील्ड इंगित करता है कि शब्द एक दूसरे से कैसे संबंधित हैं। टोकन_आईडी और हेड_टोकन_आईडी का उपयोग कर माता-पिता से एक टोकन संबंधित है। dep_rel फ़ील्ड इंगित करता है कि शब्द एक दूसरे से कैसे जुड़ते हैं। संबंधों का प्रकार http://universaldependencies.org/u/dep/index.html पर है।

कोड:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

टेक्स्ट-माइनिंग क्या है?

R में टेक्स्ट माइनिंग R प्रोग्रामिंग लैंग्वेज और संबंधित लाइब्रेरी और पैकेज का उपयोग करके टेक्स्ट डेटा से विश्लेषण और अंतर्दृष्टि निकालने की प्रक्रिया को संदर्भित करता है। टेक्स्ट माइनिंग में डेटा की सफाई और प्रीप्रोसेसिंग, फीचर एक्सट्रैक्शन, स्टैटिस्टिकल मॉडलिंग और विज़ुअलाइज़ेशन सहित कई चरण शामिल हैं।
tmपैकेज टेक्स्ट डेटा पढ़ने, डेटा की सफाई और प्रीप्रोसेसिंग, और दस्तावेज़-टर्म मैट्रिक्स बनाने के लिए कार्य प्रदान करता है, जो आमतौर पर टेक्स्ट डेटा का विश्लेषण करने के लिए उपयोग किया जाता है। tidytextपैकेज टेक्स्ट डेटा को साफ डेटा फ्रेम में बदलने के लिए उपकरण प्रदान करता है।
टेक्स्ट माइनिंग के कुछ सामान्य कार्यों में सेंटीमेंट एनालिसिस, टॉपिक मॉडलिंग, डॉक्यूमेंट क्लस्टरिंग और टेक्स्ट वर्गीकरण शामिल हैं। इन कार्यों में टेक्स्ट डेटा के भीतर पैटर्न और संबंधों की पहचान करने के लिए सांख्यिकीय और मशीन-लर्निंग तकनीकों को लागू करना शामिल है।

कीवर्ड एक्सट्रैक्शन एपीआई क्या हैं?

कीवर्ड निष्कर्षण एपीआई सॉफ्टवेयर इंटरफेस हैं जो डेवलपर्स को पूर्व-निर्मित एल्गोरिदम और मशीन लर्निंग मॉडल का उपयोग करके टेक्स्ट से कीवर्ड और कुंजी वाक्यांश निकालने की अनुमति देते हैं। ये एपीआई डेवलपर्स को अपने स्वयं के मॉडल बनाने और प्रशिक्षित करने की आवश्यकता के बिना कीवर्ड निष्कर्षण की प्रक्रिया को स्वचालित करने के लिए उपयोग में आसान और स्केलेबल समाधान प्रदान करते हैं।

आर क्या है?

आर सांख्यिकीय कंप्यूटिंग, डेटा विश्लेषण और ग्राफिक्स के लिए एक ओपन-सोर्स प्रोग्रामिंग भाषा और सॉफ्टवेयर वातावरण है। सांख्यिकीय मॉडलिंग, डेटा विज़ुअलाइज़ेशन, मशीन लर्निंग और डेटा माइनिंग जैसे कार्यों के लिए लोग अकादमिया, अनुसंधान और उद्योग में व्यापक रूप से R का उपयोग करते हैं। इसमें अन्य प्रोग्रामिंग भाषाओं जैसे कि पायथन और सी ++ के साथ इंटरफेस हैं। GitHub पर ऑनलाइन ट्यूटोरियल्स के साथ अधिक विस्तृत जानकारी प्राप्त करें।

अधिकतर पूछे जाने वाले सवाल

सीएसवी क्या है?

सीएसवी “कोमा से अलग किए गए मान” के लिए खड़ा है। यह एक फ़ाइल स्वरूप है जो एक सादे-पाठ प्रारूप में डेटा को संग्रहीत और आदान-प्रदान करता है, जहाँ प्रत्येक पंक्ति एक रिकॉर्ड का प्रतिनिधित्व करती है, और प्रत्येक स्तंभ एक फ़ील्ड या रिकॉर्ड की विशेषता का प्रतिनिधित्व करता है। CSV फ़ाइल की पहली पंक्ति आमतौर पर कॉलम हेडर स्टोर करती है, जो डेटासेट में प्रत्येक फ़ील्ड के लिए एक लेबल प्रदान करती है।

टीएफ-आईडीएफ क्या है?

TF-IDF का अर्थ “टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी” है। यह एक संख्यात्मक आँकड़ा है जो एक दस्तावेज़ कॉर्पस में एक शब्द के महत्व को दर्शाता है। TF-IDF आमतौर पर टेक्स्ट माइनिंग, सूचना पुनर्प्राप्ति और प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों में उपयोगी होता है।

स्टॉपवर्ड्स क्या हैं?

स्टॉपवर्ड्स सामान्य शब्द हैं जो प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों को बाहर कर देते हैं क्योंकि वे पाठ विश्लेषण में बहुत कम अर्थ या महत्व रखते हैं। स्टॉपवर्ड्स के उदाहरणों में “the”, “and”, “of”, “to”, “in”, “a”, “an”, “is”, और “for” शामिल हैं।

पोस्ट साझा करें:

अत्याधुनिक एआई

एस्क्रिटर के साथ अभी शुरुआत करें!

संबंधित आलेख

जीपीटी-3 के साथ बातचीत को प्रदर्शित करने वाली कंप्यूटर स्क्रीन की एक छवि, AI के भाषा प्रसंस्करण चरणों को दर्शाने वाले रेखाचित्रों के साथ मढ़ी हुई
Eskritor

GPT-3 कैसे काम करता है?

नीचे दिए गए चरण समझाते हैं कि कैसे GPT-3 प्रतिक्रिया उत्पन्न करने के लिए काम करता है: GPT-3 क्यों उपयोगी है? GPT-3 के उपयोगी होने के कारणों की सूची यहां

सामग्री लेखकों के लिए नौकरी बाजार पर AI के प्रभाव से संबंधित डेटा प्रदर्शित करने वाला एक दृश्य चार्ट
Eskritor

क्या एआई कंटेंट राइटर्स की जगह लेगा?

हां, एआई लेखक कुछ लेखकों की जगह ले सकते हैं, लेकिन वे अच्छे लेखकों की जगह कभी नहीं ले सकते। यह कुछ प्रकार के लेखन कार्यों को प्रतिस्थापित करेगा। एआई

चैटजीपीटी के आर्किटेक्चर का एक दृश्य प्रतिनिधित्व, ट्रांसफॉर्मर मॉडल की विशेषता जो इसकी भाषा समझ और पीढ़ी क्षमताओं को सक्षम बनाता है
Eskritor

चैटजीपीटी कैसे काम करता है?

उच्च स्तर पर, चैटजीपीटी एक गहन शिक्षण मॉडल है जो मानव-समान पाठ उत्पन्न करने के लिए एक तंत्रिका नेटवर्क का उपयोग करता है। मॉडल का विशिष्ट संस्करण, चैटजीपीटी-3, ट्रांसफॉर्मर आर्किटेक्चर

नमूना औपचारिक लेखन टुकड़े का एक दृश्य प्रतिनिधित्व, जिसमें पेशेवरों और विपक्षों को स्पष्ट रूप से चित्रित करने वाले अनुभाग शामिल हैं
Eskritor

औपचारिक लेखन में पेशेवरों और विपक्षों को कैसे प्रस्तुत करें?

अपनी लेखन प्रक्रिया में पेशेवरों और विपक्षों का उपयोग कैसे करें, यह जानने के लिए आप नीचे दी गई चरण-दर-चरण मार्गदर्शिका का अनुसरण कर सकते हैं: औपचारिक लेखन के प्रकार