CSV stands for "Comma-Separated Values". It is a file format that stores and exchanges data in a plain-text format, where each row represents a record, and each column represents a field or attribute of the record. The first row of a CSV file typically stores the column headers, which provide a label for each field in the dataset.

TF-IDF stands for "Term Frequency-Inverse Document Frequency". It is a numerical statistic that reflects the importance of a term in a document corpus. TF-IDF is commonly useful in text mining, information retrieval, and natural language processing applications.

Stopwords are common words that natural language processing (NLP) tasks exclude because they carry little meaning or significance in text analysis. Examples of stopwords include "the", "and", "of", "to", "in", "a", "an", "is", and "for".

आर में टेक्स्ट से कीवर्ड कैसे निकालें?

Eskritor
अप्रैल 17, 2023

कीवर्ड एक्सट्रैक्शन क्या है?

पाठ विश्लेषण तकनीक का उपयोग करते हुए कीवर्ड निष्कर्षण स्वचालित रूप से एक पाठ से सबसे अधिक उपयोग किए जाने वाले और सबसे महत्वपूर्ण शब्दों और अभिव्यक्तियों को निकालता है। यह पाठ की सामग्री को सारांशित करने और चर्चा किए गए मुख्य विषयों को पहचानने में मदद करता है, जो बाजार अनुसंधान, भावना विश्लेषण और अन्य प्रकार के डेटा विश्लेषण के लिए सहायक है। यह तकनीक वाक्य एम्बेडिंग का लाभ उठाती है और वास्तविक समय में डेटा के बड़े सेट का विश्लेषण कर सकती है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) (कंप्यूटर विज्ञान का एक क्षेत्र) के साथ मशीन लर्निंग आर्टिफिशियल इंटेलिजेंस (एआई) मानव भाषा को तोड़ता है ताकि मशीनें इसे समझ सकें और इसका विश्लेषण कर सकें। खोजशब्द निष्कर्षण आने वाले सर्वेक्षण प्रतिक्रियाओं को टैग करने या तत्काल ग्राहक प्रश्नों का जवाब देने जैसे कार्यप्रवाहों को स्वचालित करता है। तकनीक ग्रंथों और उनमें शामिल शब्दों के बारे में भाषाई और अर्थपूर्ण जानकारी का उपयोग करती है। टेक्स्ट में सबसे प्रासंगिक कीवर्ड निकालने के लिए अलग-अलग मशीन लर्निंग एल्गोरिदम और तकनीकें हैं।

कीवर्ड निकालना क्यों महत्वपूर्ण है?

कीवर्ड एक्सट्रैक्शन और कीफ्रेज़ एक्सट्रैक्शन कई कारणों से महत्वपूर्ण हैं:

सर्च इंजन ऑप्टिमाइजेशन (SEO) : कीवर्ड निष्कर्षण एक दस्तावेज़ में सबसे महत्वपूर्ण शब्दों और वाक्यांशों की पहचान करने में मदद करता है, जिसका उपयोग खोज इंजनों के लिए वेबसाइट सामग्री को अनुकूलित करने के लिए किया जा सकता है।
टेक्स्ट सारांशीकरण: कीवर्ड निष्कर्षण का उपयोग टेक्स्ट के मुख्य विषय का प्रतिनिधित्व करने वाले सबसे महत्वपूर्ण शब्दों और वाक्यांशों की पहचान करके दस्तावेज़ को सारांशित करने के लिए किया जा सकता है।
टेक्स्ट वर्गीकरण: कीवर्ड एक्सट्रैक्शन का उपयोग टेक्स्ट दस्तावेज़ों को उनमें मौजूद कीवर्ड के आधार पर विभिन्न श्रेणियों में वर्गीकृत करने के लिए किया जा सकता है। यह भाव विश्लेषण जैसे अनुप्रयोगों में उपयोगी है।
सूचना पुनर्प्राप्ति: खोजशब्द निष्कर्षण का उपयोग उपयोगकर्ता की खोज क्वेरी से मेल खाने वाले प्रासंगिक खोजशब्दों की पहचान करके सूचना पुनर्प्राप्ति प्रणालियों की सटीकता में सुधार के लिए किया जा सकता है।

आर में कीवर्ड एक्सट्रैक्शन कैसे करें?

यहाँ कुछ खोजशब्द निष्कर्षण तकनीकें और उनके उपयोग के उदाहरण दिए गए हैं:

संज्ञाओं की पहचान करने के लिए पार्ट्स ऑफ स्पीच टैगिंग करके कीवर्ड खोजें
कोलोकेशन और सह-घटनाओं के आधार पर कीवर्ड खोजें
टेक्स्टरैंक एल्गोरिथम के आधार पर कीवर्ड खोजें
RAKE (रैपिड ऑटोमैटिक कीवर्ड एक्सट्रैक्शन) के आधार पर कीवर्ड खोजें
निर्भरता पार्सिंग के परिणामों के आधार पर कीवर्ड खोजें (पाठ का विषय प्राप्त करना)

संज्ञा निकालना

कीवर्ड खोजने का एक आसान तरीका संज्ञाओं को देखना है। यदि आपने udpipe पैकेज का उपयोग करके टेक्स्ट को एनोटेट किया है, तो प्रत्येक शब्द में भाषण टैग का हिस्सा होता है:

कोड:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

कोलोकेशन और सह-घटनाएँ

बहु-शब्द अभिव्यक्ति प्राप्त करें या तो कोलोकेशन (शब्द एक दूसरे का अनुसरण करते हैं), प्रत्येक वाक्य के भीतर शब्द सह-घटनाओं पर, या शब्दों की सह-घटनाओं पर जो एक दूसरे के पड़ोस में हैं।

कोड:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

टेक्स्टरैंक (गूगल पेजरैंक द्वारा आदेशित शब्द नेटवर्क)

टेक्स्टरैंक खोजशब्दों के लिए एक अन्य निष्कर्षण विधि है। टेक्सट्रैंक आर पैकेज टेक्सट्रैंक एल्गोरिथम को लागू करता है। टेक्सट्रैंक एल्गोरिथम पाठ सारांशीकरण और कीवर्ड निष्कर्षण की अनुमति देता है। एक शब्द नेटवर्क का निर्माण करने के लिए, एल्गोरिथम जाँचता है कि क्या शब्द एक दूसरे का अनुसरण करते हैं। ‘गूगल पेजरैंक’ एल्गोरिद्म प्रासंगिक शब्द निकाल रहा है। प्रासंगिक शब्द जो एक दूसरे का अनुसरण करते हैं, एक साथ मिलकर कीवर्ड प्राप्त करते हैं। टेक्स्टरैंक मूल पाठ से उत्पन्न नहीं होता है, क्योंकि यह एक ग्राफ-आधारित दृष्टिकोण है।

कोड:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

रैपिड स्वचालित कीवर्ड एक्सट्रैक्शन: रेक

RAKE अगला बुनियादी एल्गोरिथम है जो रैपिड ऑटोमैटिक कीवर्ड एक्सट्रैक्शन के लिए एक संक्षिप्त शब्द है। RAKE नेचुरल लैंग्वेज प्रोसेसिंग में एक डोमेन-इंडिपेंडेंट कीवर्ड एक्सट्रैक्शन एल्गोरिद्म है।

प्रत्येक शब्द के लिए एक अंक की गणना करना जो किसी भी उम्मीदवार कीवर्ड का हिस्सा है, द्वारा किया जाता है
- कैंडिडेट कीवर्ड्स के शब्दों के बीच, एल्गोरिथ्म देखता है कि प्रत्येक शब्द कितनी बार हो रहा है और कितनी बार यह अन्य शब्दों के साथ सह-होता है
- प्रत्येक शब्द को एक अंक मिलता है जो कि शब्द डिग्री का अनुपात होता है (कितनी बार यह दूसरे शब्दों के साथ सह-होता है) शब्द आवृत्ति के लिए
पूर्ण उम्मीदवार कीवर्ड के लिए एक RAKE स्कोर की गणना प्रत्येक शब्द के स्कोर को जोड़ कर की जाती है जो उम्मीदवार कीवर्ड को परिभाषित करता है

कोड:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3))

नाममात्र विषय और उसके विशेषण प्राप्त करने के लिए निर्भरता पार्सिंग आउटपुट का उपयोग करें

जब आप udpipe का उपयोग करके एनोटेशन निष्पादित करते हैं, तो dep_rel फ़ील्ड इंगित करता है कि शब्द एक दूसरे से कैसे संबंधित हैं। टोकन_आईडी और हेड_टोकन_आईडी का उपयोग कर माता-पिता से एक टोकन संबंधित है। dep_rel फ़ील्ड इंगित करता है कि शब्द एक दूसरे से कैसे जुड़ते हैं। संबंधों का प्रकार http://universaldependencies.org/u/dep/index.html पर है।

कोड:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

टेक्स्ट-माइनिंग क्या है?

R में टेक्स्ट माइनिंग R प्रोग्रामिंग लैंग्वेज और संबंधित लाइब्रेरी और पैकेज का उपयोग करके टेक्स्ट डेटा से विश्लेषण और अंतर्दृष्टि निकालने की प्रक्रिया को संदर्भित करता है। टेक्स्ट माइनिंग में डेटा की सफाई और प्रीप्रोसेसिंग, फीचर एक्सट्रैक्शन, स्टैटिस्टिकल मॉडलिंग और विज़ुअलाइज़ेशन सहित कई चरण शामिल हैं।
tmपैकेज टेक्स्ट डेटा पढ़ने, डेटा की सफाई और प्रीप्रोसेसिंग, और दस्तावेज़-टर्म मैट्रिक्स बनाने के लिए कार्य प्रदान करता है, जो आमतौर पर टेक्स्ट डेटा का विश्लेषण करने के लिए उपयोग किया जाता है। tidytextपैकेज टेक्स्ट डेटा को साफ डेटा फ्रेम में बदलने के लिए उपकरण प्रदान करता है।
टेक्स्ट माइनिंग के कुछ सामान्य कार्यों में सेंटीमेंट एनालिसिस, टॉपिक मॉडलिंग, डॉक्यूमेंट क्लस्टरिंग और टेक्स्ट वर्गीकरण शामिल हैं। इन कार्यों में टेक्स्ट डेटा के भीतर पैटर्न और संबंधों की पहचान करने के लिए सांख्यिकीय और मशीन-लर्निंग तकनीकों को लागू करना शामिल है।

कीवर्ड एक्सट्रैक्शन एपीआई क्या हैं?

कीवर्ड निष्कर्षण एपीआई सॉफ्टवेयर इंटरफेस हैं जो डेवलपर्स को पूर्व-निर्मित एल्गोरिदम और मशीन लर्निंग मॉडल का उपयोग करके टेक्स्ट से कीवर्ड और कुंजी वाक्यांश निकालने की अनुमति देते हैं। ये एपीआई डेवलपर्स को अपने स्वयं के मॉडल बनाने और प्रशिक्षित करने की आवश्यकता के बिना कीवर्ड निष्कर्षण की प्रक्रिया को स्वचालित करने के लिए उपयोग में आसान और स्केलेबल समाधान प्रदान करते हैं।

आर क्या है?

आर सांख्यिकीय कंप्यूटिंग, डेटा विश्लेषण और ग्राफिक्स के लिए एक ओपन-सोर्स प्रोग्रामिंग भाषा और सॉफ्टवेयर वातावरण है। सांख्यिकीय मॉडलिंग, डेटा विज़ुअलाइज़ेशन, मशीन लर्निंग और डेटा माइनिंग जैसे कार्यों के लिए लोग अकादमिया, अनुसंधान और उद्योग में व्यापक रूप से R का उपयोग करते हैं। इसमें अन्य प्रोग्रामिंग भाषाओं जैसे कि पायथन और सी ++ के साथ इंटरफेस हैं। GitHub पर ऑनलाइन ट्यूटोरियल्स के साथ अधिक विस्तृत जानकारी प्राप्त करें।

अधिकतर पूछे जाने वाले सवाल

सीएसवी क्या है?

सीएसवी “कोमा से अलग किए गए मान” के लिए खड़ा है। यह एक फ़ाइल स्वरूप है जो एक सादे-पाठ प्रारूप में डेटा को संग्रहीत और आदान-प्रदान करता है, जहाँ प्रत्येक पंक्ति एक रिकॉर्ड का प्रतिनिधित्व करती है, और प्रत्येक स्तंभ एक फ़ील्ड या रिकॉर्ड की विशेषता का प्रतिनिधित्व करता है। CSV फ़ाइल की पहली पंक्ति आमतौर पर कॉलम हेडर स्टोर करती है, जो डेटासेट में प्रत्येक फ़ील्ड के लिए एक लेबल प्रदान करती है।

टीएफ-आईडीएफ क्या है?

TF-IDF का अर्थ “टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी” है। यह एक संख्यात्मक आँकड़ा है जो एक दस्तावेज़ कॉर्पस में एक शब्द के महत्व को दर्शाता है। TF-IDF आमतौर पर टेक्स्ट माइनिंग, सूचना पुनर्प्राप्ति और प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों में उपयोगी होता है।

स्टॉपवर्ड्स क्या हैं?

स्टॉपवर्ड्स सामान्य शब्द हैं जो प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों को बाहर कर देते हैं क्योंकि वे पाठ विश्लेषण में बहुत कम अर्थ या महत्व रखते हैं। स्टॉपवर्ड्स के उदाहरणों में “the”, “and”, “of”, “to”, “in”, “a”, “an”, “is”, और “for” शामिल हैं।

पोस्ट साझा करें: