CSV stands for "Comma-Separated Values". It is a file format that stores and exchanges data in a plain-text format, where each row represents a record, and each column represents a field or attribute of the record. The first row of a CSV file typically stores the column headers, which provide a label for each field in the dataset.

TF-IDF stands for "Term Frequency-Inverse Document Frequency". It is a numerical statistic that reflects the importance of a term in a document corpus. TF-IDF is commonly useful in text mining, information retrieval, and natural language processing applications.

Stopwords are common words that natural language processing (NLP) tasks exclude because they carry little meaning or significance in text analysis. Examples of stopwords include "the", "and", "of", "to", "in", "a", "an", "is", and "for".

كيفية استخراج الكلمات الرئيسية من النص في R؟

Eskritor
أبريل 17, 2023

ما هو استخراج الكلمات الرئيسية؟

يقوم استخراج الكلمات الرئيسية تلقائيًا باستخراج الكلمات والتعبيرات الأكثر استخدامًا والأكثر أهمية من النص ، باستخدام تقنية تحليل النص. يساعد في تلخيص محتوى النصوص والتعرف على الموضوعات الرئيسية التي تمت مناقشتها ، وهو أمر مفيد لأبحاث السوق وتحليل المشاعر وأنواع أخرى من تحليل البيانات. تعمل هذه التقنية على تعزيز عمليات تضمين الجمل ويمكنها تحليل مجموعات كبيرة من البيانات في الوقت الفعلي.

يعمل الذكاء الاصطناعي للتعلم الآلي (AI) مع معالجة اللغة الطبيعية (NLP) (أحد مجالات علوم الكمبيوتر) على تفكيك اللغة البشرية حتى تتمكن الآلات من فهمها وتحليلها. يعمل استخراج الكلمات الرئيسية على أتمتة سير العمل مثل وضع علامات على استجابات الاستبيان الواردة أو الرد على استفسارات العملاء العاجلة. تستخدم التقنية معلومات لغوية ودلالية حول النصوص والكلمات التي تحتوي عليها. هناك خوارزميات وتقنيات مختلفة للتعلم الآلي لاستخراج الكلمات الرئيسية الأكثر صلة في النص.

لماذا يعتبر استخراج الكلمات الرئيسية مهمًا؟

يعد استخراج الكلمات الرئيسية واستخراج العبارة الرئيسية مهمين لعدة أسباب:

تحسين محركات البحث (SEO) : يساعد استخراج الكلمات الرئيسية في تحديد أهم الكلمات والعبارات في المستند ، والتي يمكن استخدامها لتحسين محتوى موقع الويب لمحركات البحث.
تلخيص النص: يمكن استخدام استخراج الكلمات الرئيسية لتلخيص مستند عن طريق تحديد أهم الكلمات والعبارات التي تمثل الموضوع الرئيسي للنص.
تصنيف النص: يمكن استخدام استخراج الكلمات الرئيسية لتصنيف المستندات النصية إلى فئات مختلفة بناءً على الكلمات الرئيسية التي تحتوي عليها. هذا مفيد في تطبيقات مثل تحليل المشاعر.
استرجاع المعلومات: يمكن استخدام استخراج الكلمات الرئيسية لتحسين دقة أنظمة استرجاع المعلومات من خلال تحديد الكلمات الرئيسية ذات الصلة التي تتطابق مع استعلام بحث المستخدم.

كيفية عمل استخراج الكلمات الرئيسية في R؟

فيما يلي بعض تقنيات استخراج الكلمات الرئيسية وحالات استخدامها:

ابحث عن الكلمات الرئيسية عن طريق إجراء أجزاء من علامات الكلام من أجل تحديد الأسماء
ابحث عن الكلمات الأساسية بناءً على الترابطات والتكرارات المشتركة
ابحث عن الكلمات الرئيسية بناءً على خوارزمية Textrank
ابحث عن الكلمات الرئيسية بناءً على RAKE (الاستخراج التلقائي السريع للكلمات الرئيسية)
ابحث عن الكلمات الأساسية بناءً على نتائج تحليل التبعية (الحصول على موضوع النص)

استخراج الأسماء

طريقة سهلة للعثور على الكلمات الرئيسية هي النظر في الأسماء. نظرًا لأن كل مصطلح يحتوي على علامة أجزاء من الكلام إذا قمت بتعليق النص باستخدام حزمة udpipe:

شفرة:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

التجميع والتواجد المشترك

احصل على تعبير متعدد الكلمات من خلال النظر إما إلى الترابطات (الكلمات التي تتبع بعضها البعض) ، أو في تكرارات الكلمات المتزامنة داخل كل جملة ، أو في تكرارات الكلمات المتقاربة في جوار بعضها البعض.

شفرة:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

Textrank (شبكة كلمات مرتبة بواسطة Google Pagerank)

Textrank هي طريقة أخرى لاستخراج الكلمات الرئيسية. تطبق حزمة textrank R خوارزمية Textrank. تسمح خوارزمية Textrank بتلخيص النص واستخراج الكلمات الرئيسية. لإنشاء شبكة كلمات ، تتحقق الخوارزمية مما إذا كانت الكلمات تتبع بعضها البعض. تقوم خوارزمية “Google Pagerank” باستخراج الكلمات ذات الصلة. تتحد الكلمات ذات الصلة التي تتبع بعضها البعض للحصول على الكلمات الرئيسية. TextRank لا ينبع من النص الأصلي ، لأنه نهج قائم على الرسم البياني.

شفرة:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

الاستخراج التلقائي السريع للكلمات الرئيسية: RAKE

RAKE هي الخوارزمية الأساسية التالية وهي اختصار لـ Rapid Automatic Keyword Extraction. RAKE هي خوارزمية استخراج كلمات رئيسية مستقلة عن المجال في معالجة اللغة الطبيعية.

يتم حساب النتيجة لكل كلمة تشكل جزءًا من أي كلمة رئيسية مرشحة بواسطة
- من بين كلمات الكلمات الرئيسية المرشحة ، تبحث الخوارزمية في عدد المرات التي تحدث فيها كل كلمة وعدد مرات تكرارها مع الكلمات الأخرى
- تحصل كل كلمة على درجة وهي نسبة درجة الكلمة (كم مرة تتزامن مع الكلمات الأخرى) إلى تكرار الكلمة
يتم حساب درجة RAKE للكلمة الرئيسية للمرشح بالكامل عن طريق تلخيص درجات كل كلمة من الكلمات التي تحدد الكلمة الأساسية للمرشح

شفرة:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3))

استخدم إخراج تحليل التبعية للحصول على الموضوع الاسمي وصفته

عند تنفيذ التعليق التوضيحي باستخدام udpipe ، يشير حقل dep_rel إلى كيفية ارتباط الكلمات ببعضها البعض. يرتبط الرمز المميز بالوالد الذي يستخدم token_id و head_token_id . يشير حقل dep_rel إلى كيفية ارتباط الكلمات ببعضها البعض. نوع العلاقات موجود في http://universaldependencies.org/u/dep/index.html.

شفرة:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

ما هو التنقيب عن النص؟

يشير التنقيب عن النص في R إلى عملية تحليل واستخراج الرؤى من البيانات النصية باستخدام لغة برمجة R والمكتبات والحزم المرتبطة بها. يتضمن التنقيب عن النص عدة خطوات ، بما في ذلك تنظيف البيانات والمعالجة المسبقة ، واستخراج الميزات ، والنمذجة الإحصائية ، والتصور.
الtm توفر الحزمة وظائف لقراءة البيانات النصية ، وتنظيف البيانات ومعالجتها مسبقًا ، وإنشاء مصفوفات مصطلح المستند ، والتي تُستخدم بشكل شائع لتحليل البيانات النصية. الtidytext توفر الحزمة أدوات لتحويل البيانات النصية إلى إطارات بيانات مرتبة.
تتضمن بعض المهام الشائعة في التنقيب عن النص تحليل المشاعر ونمذجة الموضوع وتجميع المستندات وتصنيف النص. تتضمن هذه المهام تطبيق التقنيات الإحصائية وتقنيات التعلم الآلي لتحديد الأنماط والعلاقات داخل البيانات النصية.

ما هي واجهات برمجة تطبيقات استخراج الكلمات الرئيسية؟

واجهات برمجة التطبيقات لاستخراج الكلمات الرئيسية هي واجهات برمجية تسمح للمطورين باستخراج الكلمات الرئيسية والعبارات الرئيسية من النص باستخدام خوارزميات مسبقة الصنع ونماذج التعلم الآلي. توفر واجهات برمجة التطبيقات هذه حلاً سهل الاستخدام وقابل للتطوير لأتمتة عملية استخراج الكلمات الرئيسية ، دون الحاجة إلى قيام المطورين ببناء وتدريب نماذجهم الخاصة.

ما هو R؟

R هي لغة برمجة مفتوحة المصدر وبيئة برمجية للحوسبة الإحصائية وتحليل البيانات والرسومات. يستخدم الناس R على نطاق واسع في الأوساط الأكاديمية والبحثية والصناعة لمهام مثل النمذجة الإحصائية وتصور البيانات والتعلم الآلي واستخراج البيانات. يحتوي على واجهات مع لغات برمجة أخرى مثل Python و C ++ . اعثر على مزيد من المعلومات التفصيلية باستخدام البرامج التعليمية عبر الإنترنت على GitHub.

أسئلة مكررة

ما هو CSV؟

يشير CSV إلى “قيم مفصولة بفواصل”. إنه تنسيق ملف يقوم بتخزين البيانات وتبادلها بتنسيق نص عادي ، حيث يمثل كل صف سجلاً ، ويمثل كل عمود حقلاً أو سمة من سمات السجل. عادةً ما يخزن الصف الأول من ملف CSV رؤوس الأعمدة ، والتي توفر تسمية لكل حقل في مجموعة البيانات.

ما هو TF-IDF؟

TF-IDF هي اختصار لعبارة “تردد الوثيقة المعكوسة التردد”. إنها إحصائية رقمية تعكس أهمية المصطلح في مجموعة المستندات. يعتبر TF-IDF مفيدًا بشكل شائع في التنقيب عن النصوص واسترجاع المعلومات وتطبيقات معالجة اللغة الطبيعية.

ما هي Stopwords؟

كلمات التوقف هي كلمات شائعة تستبعدها مهام معالجة اللغة الطبيعية (NLP) لأنها تحمل القليل من المعنى أو الأهمية في تحليل النص. تتضمن أمثلة كلمات الإيقاف “the” و “و” و “لـ” و “to” و “in” و “a” و “an” و “is” و “for”.

شارك المنشور: