आर में टेक्स्ट से कीवर्ड कैसे निकालें?

टेक्स्ट से कीवर्ड निष्कर्षण के लिए उपयोग किए गए हाइलाइट किए गए कोड स्निपेट के साथ आर इंटरफ़ेस को दर्शाने वाली एक छवि।
टेक्स्ट से कीवर्ड निष्कर्षण के लिए उपयोग किए गए हाइलाइट किए गए कोड स्निपेट के साथ आर इंटरफ़ेस को दर्शाने वाली एक छवि।

Eskritor 2023-07-06

कीवर्ड एक्सट्रैक्शन क्या है?

पाठ विश्लेषण तकनीक का उपयोग करते हुए कीवर्ड निष्कर्षण स्वचालित रूप से एक पाठ से सबसे अधिक उपयोग किए जाने वाले और सबसे महत्वपूर्ण शब्दों और अभिव्यक्तियों को निकालता है। यह पाठ की सामग्री को सारांशित करने और चर्चा किए गए मुख्य विषयों को पहचानने में मदद करता है, जो बाजार अनुसंधान, भावना विश्लेषण और अन्य प्रकार के डेटा विश्लेषण के लिए सहायक है। यह तकनीक वाक्य एम्बेडिंग का लाभ उठाती है और वास्तविक समय में डेटा के बड़े सेट का विश्लेषण कर सकती है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) (कंप्यूटर विज्ञान का एक क्षेत्र) के साथ मशीन लर्निंग आर्टिफिशियल इंटेलिजेंस (एआई) मानव भाषा को तोड़ता है ताकि मशीनें इसे समझ सकें और इसका विश्लेषण कर सकें। खोजशब्द निष्कर्षण आने वाले सर्वेक्षण प्रतिक्रियाओं को टैग करने या तत्काल ग्राहक प्रश्नों का जवाब देने जैसे कार्यप्रवाहों को स्वचालित करता है। तकनीक ग्रंथों और उनमें शामिल शब्दों के बारे में भाषाई और अर्थपूर्ण जानकारी का उपयोग करती है। टेक्स्ट में सबसे प्रासंगिक कीवर्ड निकालने के लिए अलग-अलग मशीन लर्निंग एल्गोरिदम और तकनीकें हैं।

कीवर्ड निकालना क्यों महत्वपूर्ण है?

कीवर्ड एक्सट्रैक्शन और कीफ्रेज़ एक्सट्रैक्शन कई कारणों से महत्वपूर्ण हैं:

  1. सर्च इंजन ऑप्टिमाइजेशन (SEO) : कीवर्ड निष्कर्षण एक दस्तावेज़ में सबसे महत्वपूर्ण शब्दों और वाक्यांशों की पहचान करने में मदद करता है, जिसका उपयोग खोज इंजनों के लिए वेबसाइट सामग्री को अनुकूलित करने के लिए किया जा सकता है।
  2. टेक्स्ट सारांशीकरण: कीवर्ड निष्कर्षण का उपयोग टेक्स्ट के मुख्य विषय का प्रतिनिधित्व करने वाले सबसे महत्वपूर्ण शब्दों और वाक्यांशों की पहचान करके दस्तावेज़ को सारांशित करने के लिए किया जा सकता है।
  3. टेक्स्ट वर्गीकरण: कीवर्ड एक्सट्रैक्शन का उपयोग टेक्स्ट दस्तावेज़ों को उनमें मौजूद कीवर्ड के आधार पर विभिन्न श्रेणियों में वर्गीकृत करने के लिए किया जा सकता है। यह भाव विश्लेषण जैसे अनुप्रयोगों में उपयोगी है।
  4. सूचना पुनर्प्राप्ति: खोजशब्द निष्कर्षण का उपयोग उपयोगकर्ता की खोज क्वेरी से मेल खाने वाले प्रासंगिक खोजशब्दों की पहचान करके सूचना पुनर्प्राप्ति प्रणालियों की सटीकता में सुधार के लिए किया जा सकता है।

आर में कीवर्ड एक्सट्रैक्शन कैसे करें?

यहाँ कुछ खोजशब्द निष्कर्षण तकनीकें और उनके उपयोग के उदाहरण दिए गए हैं:

  • संज्ञाओं की पहचान करने के लिए पार्ट्स ऑफ स्पीच टैगिंग करके कीवर्ड खोजें
  • कोलोकेशन और सह-घटनाओं के आधार पर कीवर्ड खोजें
  • टेक्स्टरैंक एल्गोरिथम के आधार पर कीवर्ड खोजें
  • RAKE (रैपिड ऑटोमैटिक कीवर्ड एक्सट्रैक्शन) के आधार पर कीवर्ड खोजें
  • निर्भरता पार्सिंग के परिणामों के आधार पर कीवर्ड खोजें (पाठ का विषय प्राप्त करना)
टेक्स्ट से कीवर्ड निकालना

संज्ञा निकालना

कीवर्ड खोजने का एक आसान तरीका संज्ञाओं को देखना है। यदि आपने udpipe पैकेज का उपयोग करके टेक्स्ट को एनोटेट किया है, तो प्रत्येक शब्द में भाषण टैग का हिस्सा होता है:

कोड:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

कोलोकेशन और सह-घटनाएँ

बहु-शब्द अभिव्यक्ति प्राप्त करें या तो कोलोकेशन (शब्द एक दूसरे का अनुसरण करते हैं), प्रत्येक वाक्य के भीतर शब्द सह-घटनाओं पर, या शब्दों की सह-घटनाओं पर जो एक दूसरे के पड़ोस में हैं।

कोड:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

टेक्स्टरैंक (गूगल पेजरैंक द्वारा आदेशित शब्द नेटवर्क)

टेक्स्टरैंक खोजशब्दों के लिए एक अन्य निष्कर्षण विधि है। टेक्सट्रैंक आर पैकेज टेक्सट्रैंक एल्गोरिथम को लागू करता है। टेक्सट्रैंक एल्गोरिथम पाठ सारांशीकरण और कीवर्ड निष्कर्षण की अनुमति देता है। एक शब्द नेटवर्क का निर्माण करने के लिए, एल्गोरिथम जाँचता है कि क्या शब्द एक दूसरे का अनुसरण करते हैं। ‘गूगल पेजरैंक’ एल्गोरिद्म प्रासंगिक शब्द निकाल रहा है। प्रासंगिक शब्द जो एक दूसरे का अनुसरण करते हैं, एक साथ मिलकर कीवर्ड प्राप्त करते हैं। टेक्स्टरैंक मूल पाठ से उत्पन्न नहीं होता है, क्योंकि यह एक ग्राफ-आधारित दृष्टिकोण है।

कोड:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

रैपिड स्वचालित कीवर्ड एक्सट्रैक्शन: रेक

RAKE अगला बुनियादी एल्गोरिथम है जो रैपिड ऑटोमैटिक कीवर्ड एक्सट्रैक्शन के लिए एक संक्षिप्त शब्द है। RAKE नेचुरल लैंग्वेज प्रोसेसिंग में एक डोमेन-इंडिपेंडेंट कीवर्ड एक्सट्रैक्शन एल्गोरिद्म है।

  1. प्रत्येक शब्द के लिए एक अंक की गणना करना जो किसी भी उम्मीदवार कीवर्ड का हिस्सा है, द्वारा किया जाता है
    • कैंडिडेट कीवर्ड्स के शब्दों के बीच, एल्गोरिथ्म देखता है कि प्रत्येक शब्द कितनी बार हो रहा है और कितनी बार यह अन्य शब्दों के साथ सह-होता है
    • प्रत्येक शब्द को एक अंक मिलता है जो कि शब्द डिग्री का अनुपात होता है (कितनी बार यह दूसरे शब्दों के साथ सह-होता है) शब्द आवृत्ति के लिए
  2. पूर्ण उम्मीदवार कीवर्ड के लिए एक RAKE स्कोर की गणना प्रत्येक शब्द के स्कोर को जोड़ कर की जाती है जो उम्मीदवार कीवर्ड को परिभाषित करता है

कोड:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

नाममात्र विषय और उसके विशेषण प्राप्त करने के लिए निर्भरता पार्सिंग आउटपुट का उपयोग करें

जब आप udpipe का उपयोग करके एनोटेशन निष्पादित करते हैं, तो dep_rel फ़ील्ड इंगित करता है कि शब्द एक दूसरे से कैसे संबंधित हैं। टोकन_आईडी और हेड_टोकन_आईडी का उपयोग कर माता-पिता से एक टोकन संबंधित है। dep_rel फ़ील्ड इंगित करता है कि शब्द एक दूसरे से कैसे जुड़ते हैं। संबंधों का प्रकार http://universaldependencies.org/u/dep/index.html पर है।

कोड:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

टेक्स्ट-माइनिंग क्या है?

R में टेक्स्ट माइनिंग R प्रोग्रामिंग लैंग्वेज और संबंधित लाइब्रेरी और पैकेज का उपयोग करके टेक्स्ट डेटा से विश्लेषण और अंतर्दृष्टि निकालने की प्रक्रिया को संदर्भित करता है। टेक्स्ट माइनिंग में डेटा की सफाई और प्रीप्रोसेसिंग, फीचर एक्सट्रैक्शन, स्टैटिस्टिकल मॉडलिंग और विज़ुअलाइज़ेशन सहित कई चरण शामिल हैं।
tm पैकेज टेक्स्ट डेटा पढ़ने, डेटा की सफाई और प्रीप्रोसेसिंग, और दस्तावेज़-टर्म मैट्रिक्स बनाने के लिए कार्य प्रदान करता है, जो आमतौर पर टेक्स्ट डेटा का विश्लेषण करने के लिए उपयोग किया जाता है। tidytext पैकेज टेक्स्ट डेटा को साफ डेटा फ्रेम में बदलने के लिए उपकरण प्रदान करता है।
टेक्स्ट माइनिंग के कुछ सामान्य कार्यों में सेंटीमेंट एनालिसिस, टॉपिक मॉडलिंग, डॉक्यूमेंट क्लस्टरिंग और टेक्स्ट वर्गीकरण शामिल हैं। इन कार्यों में टेक्स्ट डेटा के भीतर पैटर्न और संबंधों की पहचान करने के लिए सांख्यिकीय और मशीन-लर्निंग तकनीकों को लागू करना शामिल है।

कीवर्ड निष्कर्षण एपीआई सॉफ्टवेयर इंटरफेस हैं जो डेवलपर्स को पूर्व-निर्मित एल्गोरिदम और मशीन लर्निंग मॉडल का उपयोग करके टेक्स्ट से कीवर्ड और कुंजी वाक्यांश निकालने की अनुमति देते हैं। ये एपीआई डेवलपर्स को अपने स्वयं के मॉडल बनाने और प्रशिक्षित करने की आवश्यकता के बिना कीवर्ड निष्कर्षण की प्रक्रिया को स्वचालित करने के लिए उपयोग में आसान और स्केलेबल समाधान प्रदान करते हैं।

आर सांख्यिकीय कंप्यूटिंग, डेटा विश्लेषण और ग्राफिक्स के लिए एक ओपन-सोर्स प्रोग्रामिंग भाषा और सॉफ्टवेयर वातावरण है। सांख्यिकीय मॉडलिंग, डेटा विज़ुअलाइज़ेशन, मशीन लर्निंग और डेटा माइनिंग जैसे कार्यों के लिए लोग अकादमिया, अनुसंधान और उद्योग में व्यापक रूप से R का उपयोग करते हैं। इसमें अन्य प्रोग्रामिंग भाषाओं जैसे कि पायथन और सी ++ के साथ इंटरफेस हैं। GitHub पर ऑनलाइन ट्यूटोरियल्स के साथ अधिक विस्तृत जानकारी प्राप्त करें।

पोस्ट साझा करें

AI लेखक

img

Eskritor

AI जनित सामग्री बनाएं