كيفية استخراج الكلمات الرئيسية من النص في R؟

صورة توضح واجهة R مع مقتطف رمز مميز يستخدم لاستخراج الكلمات الرئيسية من النص.

ما هو استخراج الكلمات الرئيسية؟

يقوم استخراج الكلمات الرئيسية تلقائيًا باستخراج الكلمات والتعبيرات الأكثر استخدامًا والأكثر أهمية من النص ، باستخدام تقنية تحليل النص. يساعد في تلخيص محتوى النصوص والتعرف على الموضوعات الرئيسية التي تمت مناقشتها ، وهو أمر مفيد لأبحاث السوق وتحليل المشاعر وأنواع أخرى من تحليل البيانات. تعمل هذه التقنية على تعزيز عمليات تضمين الجمل ويمكنها تحليل مجموعات كبيرة من البيانات في الوقت الفعلي.

يعمل الذكاء الاصطناعي للتعلم الآلي (AI) مع معالجة اللغة الطبيعية (NLP) (أحد مجالات علوم الكمبيوتر) على تفكيك اللغة البشرية حتى تتمكن الآلات من فهمها وتحليلها. يعمل استخراج الكلمات الرئيسية على أتمتة سير العمل مثل وضع علامات على استجابات الاستبيان الواردة أو الرد على استفسارات العملاء العاجلة. تستخدم التقنية معلومات لغوية ودلالية حول النصوص والكلمات التي تحتوي عليها. هناك خوارزميات وتقنيات مختلفة للتعلم الآلي لاستخراج الكلمات الرئيسية الأكثر صلة في النص.

لماذا يعتبر استخراج الكلمات الرئيسية مهمًا؟

يعد استخراج الكلمات الرئيسية واستخراج العبارة الرئيسية مهمين لعدة أسباب:

  1. تحسين محركات البحث (SEO) : يساعد استخراج الكلمات الرئيسية في تحديد أهم الكلمات والعبارات في المستند ، والتي يمكن استخدامها لتحسين محتوى موقع الويب لمحركات البحث.
  2. تلخيص النص: يمكن استخدام استخراج الكلمات الرئيسية لتلخيص مستند عن طريق تحديد أهم الكلمات والعبارات التي تمثل الموضوع الرئيسي للنص.
  3. تصنيف النص: يمكن استخدام استخراج الكلمات الرئيسية لتصنيف المستندات النصية إلى فئات مختلفة بناءً على الكلمات الرئيسية التي تحتوي عليها. هذا مفيد في تطبيقات مثل تحليل المشاعر.
  4. استرجاع المعلومات: يمكن استخدام استخراج الكلمات الرئيسية لتحسين دقة أنظمة استرجاع المعلومات من خلال تحديد الكلمات الرئيسية ذات الصلة التي تتطابق مع استعلام بحث المستخدم.

كيفية عمل استخراج الكلمات الرئيسية في R؟

فيما يلي بعض تقنيات استخراج الكلمات الرئيسية وحالات استخدامها:

  • ابحث عن الكلمات الرئيسية عن طريق إجراء أجزاء من علامات الكلام من أجل تحديد الأسماء
  • ابحث عن الكلمات الأساسية بناءً على الترابطات والتكرارات المشتركة
  • ابحث عن الكلمات الرئيسية بناءً على خوارزمية Textrank
  • ابحث عن الكلمات الرئيسية بناءً على RAKE (الاستخراج التلقائي السريع للكلمات الرئيسية)
  • ابحث عن الكلمات الأساسية بناءً على نتائج تحليل التبعية (الحصول على موضوع النص)
استخراج الكلمات الرئيسية من النص

استخراج الأسماء

طريقة سهلة للعثور على الكلمات الرئيسية هي النظر في الأسماء. نظرًا لأن كل مصطلح يحتوي على علامة أجزاء من الكلام إذا قمت بتعليق النص باستخدام حزمة udpipe:

شفرة:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

التجميع والتواجد المشترك

احصل على تعبير متعدد الكلمات من خلال النظر إما إلى الترابطات (الكلمات التي تتبع بعضها البعض) ، أو في تكرارات الكلمات المتزامنة داخل كل جملة ، أو في تكرارات الكلمات المتقاربة في جوار بعضها البعض.

شفرة:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

Textrank (شبكة كلمات مرتبة بواسطة Google Pagerank)

Textrank هي طريقة أخرى لاستخراج الكلمات الرئيسية. تطبق حزمة textrank R خوارزمية Textrank. تسمح خوارزمية Textrank بتلخيص النص واستخراج الكلمات الرئيسية. لإنشاء شبكة كلمات ، تتحقق الخوارزمية مما إذا كانت الكلمات تتبع بعضها البعض. تقوم خوارزمية “Google Pagerank” باستخراج الكلمات ذات الصلة. تتحد الكلمات ذات الصلة التي تتبع بعضها البعض للحصول على الكلمات الرئيسية. TextRank لا ينبع من النص الأصلي ، لأنه نهج قائم على الرسم البياني.

شفرة:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

الاستخراج التلقائي السريع للكلمات الرئيسية: RAKE

RAKE هي الخوارزمية الأساسية التالية وهي اختصار لـ Rapid Automatic Keyword Extraction. RAKE هي خوارزمية استخراج كلمات رئيسية مستقلة عن المجال في معالجة اللغة الطبيعية.

  1. يتم حساب النتيجة لكل كلمة تشكل جزءًا من أي كلمة رئيسية مرشحة بواسطة
    • من بين كلمات الكلمات الرئيسية المرشحة ، تبحث الخوارزمية في عدد المرات التي تحدث فيها كل كلمة وعدد مرات تكرارها مع الكلمات الأخرى
    • تحصل كل كلمة على درجة وهي نسبة درجة الكلمة (كم مرة تتزامن مع الكلمات الأخرى) إلى تكرار الكلمة
  2. يتم حساب درجة RAKE للكلمة الرئيسية للمرشح بالكامل عن طريق تلخيص درجات كل كلمة من الكلمات التي تحدد الكلمة الأساسية للمرشح

شفرة:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

استخدم إخراج تحليل التبعية للحصول على الموضوع الاسمي وصفته

عند تنفيذ التعليق التوضيحي باستخدام udpipe ، يشير حقل dep_rel إلى كيفية ارتباط الكلمات ببعضها البعض. يرتبط الرمز المميز بالوالد الذي يستخدم token_id و head_token_id . يشير حقل dep_rel إلى كيفية ارتباط الكلمات ببعضها البعض. نوع العلاقات موجود في http://universaldependencies.org/u/dep/index.html.

شفرة:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

ما هو التنقيب عن النص؟

يشير التنقيب عن النص في R إلى عملية تحليل واستخراج الرؤى من البيانات النصية باستخدام لغة برمجة R والمكتبات والحزم المرتبطة بها. يتضمن التنقيب عن النص عدة خطوات ، بما في ذلك تنظيف البيانات والمعالجة المسبقة ، واستخراج الميزات ، والنمذجة الإحصائية ، والتصور.
الtm توفر الحزمة وظائف لقراءة البيانات النصية ، وتنظيف البيانات ومعالجتها مسبقًا ، وإنشاء مصفوفات مصطلح المستند ، والتي تُستخدم بشكل شائع لتحليل البيانات النصية. الtidytext توفر الحزمة أدوات لتحويل البيانات النصية إلى إطارات بيانات مرتبة.
تتضمن بعض المهام الشائعة في التنقيب عن النص تحليل المشاعر ونمذجة الموضوع وتجميع المستندات وتصنيف النص. تتضمن هذه المهام تطبيق التقنيات الإحصائية وتقنيات التعلم الآلي لتحديد الأنماط والعلاقات داخل البيانات النصية.

ما هي واجهات برمجة تطبيقات استخراج الكلمات الرئيسية؟

واجهات برمجة التطبيقات لاستخراج الكلمات الرئيسية هي واجهات برمجية تسمح للمطورين باستخراج الكلمات الرئيسية والعبارات الرئيسية من النص باستخدام خوارزميات مسبقة الصنع ونماذج التعلم الآلي. توفر واجهات برمجة التطبيقات هذه حلاً سهل الاستخدام وقابل للتطوير لأتمتة عملية استخراج الكلمات الرئيسية ، دون الحاجة إلى قيام المطورين ببناء وتدريب نماذجهم الخاصة.

ما هو R؟

R هي لغة برمجة مفتوحة المصدر وبيئة برمجية للحوسبة الإحصائية وتحليل البيانات والرسومات. يستخدم الناس R على نطاق واسع في الأوساط الأكاديمية والبحثية والصناعة لمهام مثل النمذجة الإحصائية وتصور البيانات والتعلم الآلي واستخراج البيانات. يحتوي على واجهات مع لغات برمجة أخرى مثل Python و C ++ . اعثر على مزيد من المعلومات التفصيلية باستخدام البرامج التعليمية عبر الإنترنت على GitHub.

أسئلة مكررة

ما هو CSV؟

يشير CSV إلى “قيم مفصولة بفواصل”. إنه تنسيق ملف يقوم بتخزين البيانات وتبادلها بتنسيق نص عادي ، حيث يمثل كل صف سجلاً ، ويمثل كل عمود حقلاً أو سمة من سمات السجل. عادةً ما يخزن الصف الأول من ملف CSV رؤوس الأعمدة ، والتي توفر تسمية لكل حقل في مجموعة البيانات.

ما هو TF-IDF؟

TF-IDF هي اختصار لعبارة “تردد الوثيقة المعكوسة التردد”. إنها إحصائية رقمية تعكس أهمية المصطلح في مجموعة المستندات. يعتبر TF-IDF مفيدًا بشكل شائع في التنقيب عن النصوص واسترجاع المعلومات وتطبيقات معالجة اللغة الطبيعية.

ما هي Stopwords؟

كلمات التوقف هي كلمات شائعة تستبعدها مهام معالجة اللغة الطبيعية (NLP) لأنها تحمل القليل من المعنى أو الأهمية في تحليل النص. تتضمن أمثلة كلمات الإيقاف “the” و “و” و “لـ” و “to” و “in” و “a” و “an” و “is” و “for”.

شارك المنشور:

دولة من الفن AI

ابدأ مع Eskritor الآن!

مقالات ذات صلة

صورة لشاشة كمبيوتر تعرض محادثة مع GPT-3 ، مغطاة برسوم بيانية توضح خطوات معالجة لغة AI
Eskritor

كيف يعمل GPT-3؟

توضح الخطوات التالية كيفية عمل GPT-3 لتوليد الردود: لماذا يعتبر GPT-3 مفيدًا؟ فيما يلي قائمة بالأسباب التي تجعل GPT-3 مفيدًا: ما هو تاريخ GPT-3؟ يعد تطوير GPT-3 عملية تكرارية. فيما

مخطط مرئي يعرض البيانات المتعلقة بتأثير AI على سوق العمل لكتاب المحتوى
Eskritor

هل سيحل AI محل كتّاب المحتوى؟

نعم ، من المتوقع أن يحل AI محل كتّاب المحتوى وأنواع معينة من وظائف الكتابة. ومع ذلك ، فهم غير قادرين على استبدال الكتاب الجيدين. تنشئ جهات إنشاء محتوى AI

تمثيل مرئي لبنية ChatGPT ، يتميز بنموذج المحولات التي تمكنه من فهم اللغة وقدرات التوليد
Eskritor

كيف يعمل ChatGPT؟

على مستوى عالٍ ، يعد ChatGPT نموذجًا تعليميًا عميقًا يستخدم شبكة عصبية لإنشاء نص يشبه الإنسان. يعتمد الإصدار المحدد من النموذج ، ChatGPT-3 ، على تقنية تسمى هندسة المحولات. يسمح

تمثيل مرئي لعينة من قطعة الكتابة الرسمية ، مع أقسام توضح الإيجابيات والسلبيات بشكل واضح
Eskritor

كيف تقدم إيجابيات وسلبيات في الكتابة الرسمية؟

يمكنك اتباع الدليل التفصيلي أدناه لمعرفة كيفية استخدام الإيجابيات والسلبيات في عملية الكتابة الخاصة بك: ما هي أنواع الكتابة الرسمية؟ فيما يلي بعض أكثر أنواع الكتابة الرسمية شيوعًا: ما هي