কিভাবে R-এ টেক্সট থেকে কীওয়ার্ড বের করবেন?

পাঠ্য থেকে কীওয়ার্ড নিষ্কাশনের জন্য ব্যবহৃত একটি হাইলাইট করা কোড স্নিপেট সহ R ইন্টারফেসকে চিত্রিত করে একটি চিত্র৷

কীওয়ার্ড এক্সট্রাকশন কি?

মূলশব্দ নিষ্কাশন স্বয়ংক্রিয়ভাবে একটি পাঠ্য বিশ্লেষণ কৌশল ব্যবহার করে একটি পাঠ্য থেকে সর্বাধিক ব্যবহৃত এবং সবচেয়ে গুরুত্বপূর্ণ শব্দ এবং অভিব্যক্তিগুলিকে বের করে। এটি পাঠ্যের বিষয়বস্তু সংক্ষিপ্ত করতে এবং আলোচিত প্রধান বিষয়গুলিকে চিনতে সাহায্য করে, যা বাজার গবেষণা, অনুভূতি বিশ্লেষণ এবং অন্যান্য ধরণের ডেটা বিশ্লেষণের জন্য সহায়ক। এই কৌশলটি বাক্য এমবেডিংয়ের সুবিধা দেয় এবং রিয়েল-টাইমে ডেটার বড় সেট বিশ্লেষণ করতে পারে।

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) (কম্পিউটার বিজ্ঞানের একটি ক্ষেত্র) সহ মেশিন লার্নিং কৃত্রিম বুদ্ধিমত্তা (এআই) মানুষের ভাষাকে ভেঙে দেয় যাতে মেশিনগুলি এটি বুঝতে এবং বিশ্লেষণ করতে পারে। কীওয়ার্ড নিষ্কাশন কর্মপ্রবাহকে স্বয়ংক্রিয় করে যেমন আগত সমীক্ষার প্রতিক্রিয়া ট্যাগ করা বা গ্রাহকের জরুরী প্রশ্নের উত্তর দেওয়া। এই কৌশলটি পাঠ্য এবং সেগুলিতে থাকা শব্দগুলি সম্পর্কে ভাষাগত এবং শব্দার্থিক তথ্য ব্যবহার করে। একটি পাঠ্যের মধ্যে সবচেয়ে প্রাসঙ্গিক কীওয়ার্ডগুলি বের করার জন্য বিভিন্ন মেশিন লার্নিং অ্যালগরিদম এবং কৌশল রয়েছে।

কেন কীওয়ার্ড নিষ্কাশন গুরুত্বপূর্ণ?

কীওয়ার্ড নিষ্কাশন এবং কীফ্রেজ নিষ্কাশন বিভিন্ন কারণে গুরুত্বপূর্ণ:

  1. সার্চ ইঞ্জিন অপ্টিমাইজেশান (SEO) : কীওয়ার্ড নিষ্কাশন একটি নথিতে সবচেয়ে গুরুত্বপূর্ণ শব্দ এবং বাক্যাংশ সনাক্ত করতে সাহায্য করে, যা সার্চ ইঞ্জিনের জন্য ওয়েবসাইটের বিষয়বস্তু অপ্টিমাইজ করতে ব্যবহার করা যেতে পারে।
  2. পাঠ্য সংক্ষিপ্তকরণ: পাঠ্যের মূল বিষয়বস্তুকে প্রতিনিধিত্ব করে এমন সবচেয়ে গুরুত্বপূর্ণ শব্দ এবং বাক্যাংশগুলি সনাক্ত করে একটি নথির সংক্ষিপ্তসারের জন্য কীওয়ার্ড নিষ্কাশন ব্যবহার করা যেতে পারে।
  3. টেক্সট শ্রেণীবিভাগ: কীওয়ার্ড এক্সট্রাকশন টেক্সট ডকুমেন্টগুলিকে তাদের মধ্যে থাকা কীওয়ার্ডগুলির উপর ভিত্তি করে বিভিন্ন বিভাগে শ্রেণীবদ্ধ করতে ব্যবহার করা যেতে পারে। এটি অনুভূতি বিশ্লেষণের মতো অ্যাপ্লিকেশনগুলিতে কার্যকর।
  4. তথ্য পুনরুদ্ধার: ব্যবহারকারীর অনুসন্ধান প্রশ্নের সাথে মেলে এমন প্রাসঙ্গিক কীওয়ার্ডগুলি সনাক্ত করে তথ্য পুনরুদ্ধার সিস্টেমের নির্ভুলতা উন্নত করতে কীওয়ার্ড নিষ্কাশন ব্যবহার করা যেতে পারে।

R-এ কীওয়ার্ড এক্সট্রাকশন কীভাবে করবেন?

এখানে কিছু কীওয়ার্ড নিষ্কাশন কৌশল এবং তাদের ব্যবহারের ক্ষেত্রে রয়েছে:

  • বিশেষ্য সনাক্ত করার জন্য পার্টস অফ স্পিচ ট্যাগিং করে কীওয়ার্ড খুঁজুন
  • সংকলন এবং সহ-ঘটনার উপর ভিত্তি করে কীওয়ার্ড খুঁজুন
  • Textrank অ্যালগরিদমের উপর ভিত্তি করে কীওয়ার্ড খুঁজুন
  • RAKE (দ্রুত স্বয়ংক্রিয় কীওয়ার্ড নিষ্কাশন) এর উপর ভিত্তি করে কীওয়ার্ড খুঁজুন
  • নির্ভরতা পার্সিংয়ের ফলাফলের উপর ভিত্তি করে কীওয়ার্ড খুঁজুন (পাঠ্যের বিষয় পাওয়া)
টেক্সট থেকে কীওয়ার্ড বের করা

বিশেষ্য নিষ্কাশন

কীওয়ার্ড খোঁজার একটি সহজ উপায় হল বিশেষ্যের দিকে তাকানো। যেহেতু আপনি udpipe প্যাকেজ ব্যবহার করে টেক্সট টীকা করলে প্রতিটি শব্দের একটি পার্টস অফ স্পিচ ট্যাগ থাকে:

কোড:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

সংযোজন এবং সহ-সংঘটন

একাধিক শব্দের অভিব্যক্তি পান কোলোকেশন (শব্দগুলি একে অপরকে অনুসরণ করে), প্রতিটি বাক্যের মধ্যে শব্দের সহ-সংঘটনের দিকে, অথবা শব্দের সহ-সংঘটনগুলি যা একে অপরের কাছাকাছি রয়েছে।

কোড:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

টেক্সট্র্যাঙ্ক (গুগল পেজর্যাঙ্ক দ্বারা আদেশকৃত শব্দ নেটওয়ার্ক)

Textrank হল কীওয়ার্ডের জন্য আরেকটি নিষ্কাশন পদ্ধতি। Textrank R প্যাকেজ Textrank অ্যালগরিদম প্রয়োগ করে। টেক্সট্র্যাঙ্ক অ্যালগরিদম পাঠ্যের সংক্ষিপ্তকরণ এবং কীওয়ার্ড নিষ্কাশনের অনুমতি দেয়। একটি শব্দ নেটওয়ার্ক তৈরি করতে, অ্যালগরিদম শব্দগুলি একে অপরকে অনুসরণ করে কিনা তা পরীক্ষা করে। ‘গুগল পেজর্যাঙ্ক’ অ্যালগরিদম প্রাসঙ্গিক শব্দ বের করছে। প্রাসঙ্গিক শব্দ যা একে অপরকে অনুসরণ করে কীওয়ার্ড পেতে একত্রিত হয়। TextRank মূল পাঠ্য থেকে উদ্ভূত হয় না, কারণ এটি একটি গ্রাফ-ভিত্তিক পদ্ধতি।

কোড:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

দ্রুত স্বয়ংক্রিয় কীওয়ার্ড নিষ্কাশন: RAKE

RAKE হল পরবর্তী মৌলিক অ্যালগরিদম যা Rapid Automatic Keyword Extraction এর সংক্ষিপ্ত রূপ। RAKE প্রাকৃতিক ভাষা প্রক্রিয়াকরণে একটি ডোমেন-স্বাধীন কীওয়ার্ড নিষ্কাশন অ্যালগরিদম।

  1. প্রতিটি শব্দের জন্য একটি স্কোর গণনা করা যা কোনো প্রার্থীর কীওয়ার্ডের অংশ, দ্বারা সম্পন্ন হয়
    • প্রার্থীর কীওয়ার্ডের শব্দগুলির মধ্যে, অ্যালগরিদম দেখায় যে প্রতিটি শব্দ কতবার ঘটছে এবং কতবার এটি অন্যান্য শব্দের সাথে মিলিত হচ্ছে
    • প্রতিটি শব্দ একটি স্কোর পায় যা শব্দ ডিগ্রির অনুপাত (এটি কতবার অন্যান্য শব্দের সাথে ঘটে) শব্দের ফ্রিকোয়েন্সি
  2. পূর্ণ প্রার্থীর কীওয়ার্ডের জন্য একটি RAKE স্কোর প্রতিটি শব্দের স্কোর যোগ করে গণনা করা হয় যা প্রার্থীর কীওয়ার্ডকে সংজ্ঞায়িত করে।

কোড:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

নামমাত্র বিষয় এবং এটির বিশেষণ পেতে নির্ভরতা পার্সিং আউটপুট ব্যবহার করুন

আপনি যখন udpipe ব্যবহার করে টীকাটি সম্পাদন করেন, তখন dep_rel ক্ষেত্র নির্দেশ করে যে শব্দগুলি কীভাবে একে অপরের সাথে সম্পর্কিত। একটি টোকেন token_id এবং head_token_id ব্যবহার করে পিতামাতার সাথে সম্পর্কিত। dep_rel ক্ষেত্র নির্দেশ করে কিভাবে শব্দ একে অপরের সাথে লিঙ্ক করে। সম্পর্কের ধরন http://universaldependencies.org/u/dep/index.html এ রয়েছে৷

কোড:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

টেক্সট মাইনিং কি?

R-এ টেক্সট মাইনিং বলতে R প্রোগ্রামিং ভাষা এবং সংশ্লিষ্ট লাইব্রেরি এবং প্যাকেজ ব্যবহার করে টেক্সট ডেটা থেকে অন্তর্দৃষ্টি বিশ্লেষণ এবং বের করার প্রক্রিয়াকে বোঝায়। টেক্সট মাইনিংয়ে ডেটা পরিষ্কার এবং প্রিপ্রসেসিং, বৈশিষ্ট্য নিষ্কাশন, পরিসংখ্যানগত মডেলিং এবং ভিজ্যুয়ালাইজেশন সহ বেশ কয়েকটি ধাপ জড়িত।
দ্যtm প্যাকেজ পাঠ্য ডেটা পড়া, ডেটা পরিষ্কার এবং প্রিপ্রসেসিং এবং ডকুমেন্ট-টার্ম ম্যাট্রিক্স তৈরি করার জন্য ফাংশন সরবরাহ করে, যা সাধারণত পাঠ্য ডেটা বিশ্লেষণের জন্য ব্যবহৃত হয়। দ্যtidytext প্যাকেজ পাঠ্য ডেটাকে পরিপাটি ডেটা ফ্রেমে রূপান্তর করার জন্য সরঞ্জাম সরবরাহ করে।
টেক্সট মাইনিংয়ের কিছু সাধারণ কাজের মধ্যে রয়েছে অনুভূতি বিশ্লেষণ, টপিক মডেলিং, ডকুমেন্ট ক্লাস্টারিং এবং টেক্সট ক্লাসিফিকেশন। এই কাজগুলির মধ্যে পাঠ্য ডেটার মধ্যে নিদর্শন এবং সম্পর্ক সনাক্ত করতে পরিসংখ্যানগত এবং মেশিন-লার্নিং কৌশল প্রয়োগ করা জড়িত।

কীওয়ার্ড এক্সট্রাকশন এপিআই কি?

কীওয়ার্ড এক্সট্রাকশন এপিআই হল সফ্টওয়্যার ইন্টারফেস যা ডেভেলপারদের প্রাক-নির্মিত অ্যালগরিদম এবং মেশিন লার্নিং মডেল ব্যবহার করে পাঠ্য থেকে কীওয়ার্ড এবং মূল বাক্যাংশ বের করতে দেয়। এই APIগুলি কীওয়ার্ড নিষ্কাশন প্রক্রিয়া স্বয়ংক্রিয় করার জন্য একটি সহজে ব্যবহারযোগ্য এবং মাপযোগ্য সমাধান প্রদান করে, বিকাশকারীদের তাদের নিজস্ব মডেল তৈরি এবং প্রশিক্ষণের প্রয়োজন ছাড়াই।

আর কি?

R হল পরিসংখ্যানগত কম্পিউটিং, ডেটা বিশ্লেষণ এবং গ্রাফিক্সের জন্য একটি ওপেন সোর্স প্রোগ্রামিং ভাষা এবং সফ্টওয়্যার পরিবেশ। পরিসংখ্যানগত মডেলিং, ডেটা ভিজ্যুয়ালাইজেশন, মেশিন লার্নিং এবং ডেটা মাইনিংয়ের মতো কাজের জন্য লোকেরা একাডেমিয়া, গবেষণা এবং শিল্পে ব্যাপকভাবে R ব্যবহার করে। এটির অন্যান্য প্রোগ্রামিং ভাষার সাথে ইন্টারফেস রয়েছে যেমন পাইথন এবং C++ । GitHub-এ অনলাইন টিউটোরিয়াল সহ আরও বিস্তারিত তথ্য খুঁজুন।

সচরাচর জিজ্ঞাস্য

CSV কি?

CSV মানে “কমা-বিচ্ছিন্ন মান”। এটি একটি ফাইল বিন্যাস যা একটি প্লেইন-টেক্সট ফরম্যাটে ডেটা সঞ্চয় করে এবং বিনিময় করে, যেখানে প্রতিটি সারি একটি রেকর্ড উপস্থাপন করে এবং প্রতিটি কলাম রেকর্ডের একটি ক্ষেত্র বা বৈশিষ্ট্য উপস্থাপন করে। একটি CSV ফাইলের প্রথম সারি সাধারণত কলাম হেডার সংরক্ষণ করে, যা ডেটাসেটের প্রতিটি ক্ষেত্রের জন্য একটি লেবেল প্রদান করে।

TF-IDF কি?

TF-IDF মানে “টার্ম ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি”। এটি একটি সংখ্যাসূচক পরিসংখ্যান যা একটি নথি কর্পাসে একটি পদের গুরুত্ব প্রতিফলিত করে। TF-IDF সাধারণত টেক্সট মাইনিং, তথ্য পুনরুদ্ধার, এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ অ্যাপ্লিকেশনে দরকারী।

Stopwords কি?

স্টপওয়ার্ড হল সাধারণ শব্দ যা ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) কাজগুলি বাদ দেয় কারণ সেগুলি পাঠ্য বিশ্লেষণে সামান্য অর্থ বা তাৎপর্য বহন করে। স্টপওয়ার্ডের উদাহরণগুলির মধ্যে রয়েছে “the”, “and”, “of”, “to”, “in”, “a”, “an”, “is”, এবং “for”।

পোস্ট শেয়ার করুন:

অত্যাধুনিক এআই

Eskritor দিয়ে এখনই শুরু করুন!

সম্পরকিত প্রবন্ধ

একটি কম্পিউটার স্ক্রিনের একটি চিত্র যা GPT-3-এর সাথে একটি কথোপকথন প্রদর্শন করে, এআই-এর ভাষা প্রক্রিয়াকরণের ধাপগুলিকে চিত্রিত করে ডায়াগ্রাম দিয়ে আচ্ছাদিত
Eskritor

কিভাবে GPT-3 কাজ করে?

নিচের ধাপগুলো ব্যাখ্যা করে কিভাবে GPT-3 প্রতিক্রিয়া তৈরি করতে কাজ করে: কেন GPT-3 দরকারী? এখানে GPT-3 কেন দরকারী কারণগুলির একটি তালিকা রয়েছে: GPT-3 এর ইতিহাস কি? GPT-3 এর বিকাশ একটি

বিষয়বস্তু লেখকদের জন্য চাকরির বাজারে AI এর প্রভাব সম্পর্কিত ডেটা প্রদর্শন করে একটি ভিজ্যুয়াল চার্ট
Eskritor

এআই কি বিষয়বস্তু লেখকদের প্রতিস্থাপন করবে?

হ্যাঁ, এটা প্রত্যাশিত যে AI বিষয়বস্তু লেখকদের এবং নির্দিষ্ট ধরনের লেখার চাকরি প্রতিস্থাপন করবে। তবে তারা ভালো লেখকদের প্রতিস্থাপন করতে পারছে না। এআই কন্টেন্ট জেনারেটর মৌলিক বিষয়বস্তু তৈরি করে যা

ChatGPT এর স্থাপত্যের একটি ভিজ্যুয়াল উপস্থাপনা, ট্রান্সফরমার মডেলের বৈশিষ্ট্য যা এর ভাষা বোঝা এবং প্রজন্মের ক্ষমতা সক্ষম করে
Eskritor

ChatGPT কিভাবে কাজ করে?

উচ্চ স্তরে, ChatGPT হল একটি গভীর শিক্ষার মডেল যা মানুষের মতো পাঠ্য তৈরি করতে একটি নিউরাল নেটওয়ার্ক ব্যবহার করে। মডেলটির নির্দিষ্ট সংস্করণ, ChatGPT-3, ট্রান্সফরমার আর্কিটেকচার নামক একটি প্রযুক্তির উপর ভিত্তি

একটি নমুনা আনুষ্ঠানিক লেখার অংশের একটি ভিজ্যুয়াল উপস্থাপনা, যেখানে ভাল এবং অসুবিধাগুলি স্পষ্টভাবে তুলে ধরা হয়েছে
Eskritor

ফর্মাল রাইটিংয়ে কীভাবে ভালো-মন্দ উপস্থাপন করবেন?

আপনার লেখার প্রক্রিয়ায় সুবিধা এবং অসুবিধাগুলি কীভাবে ব্যবহার করবেন তা শিখতে আপনি নীচের ধাপে ধাপে নির্দেশিকা অনুসরণ করতে পারেন: আনুষ্ঠানিক লেখার ধরন কি কি? এখানে আনুষ্ঠানিক লেখার কিছু সাধারণ প্রকার