Како да се извлечат клучни зборови од текст во R?

Слика што го илустрира интерфејсот R со означен фрагмент од код што се користи за екстракција на клучни зборови од текст.

Што е екстракција на клучни зборови?

Извлекувањето на клучни зборови автоматски ги извлекува најкористените и најважните зборови и изрази од текстот, користејќи техника за анализа на текст. Тоа помага да се сумира содржината на текстовите и да се препознаат главните теми за кои се дискутира, што е корисно за истражување на пазарот , анализа на чувствата и други видови на анализа на податоци. Оваа техника користи вградување реченици и може да анализира големи групи на податоци во реално време.

Вештачката интелигенција (АИ) за машинско учење со обработка на природни јазици (НЛП) (област на компјутерски науки) го разложува човечкиот јазик за машините да можат да го разберат и анализираат. Извлекувањето на клучни зборови ги автоматизира работните текови, како што е означување на дојдовните одговори на анкетите или одговарање на итни прашања од клиентите. Техниката користи лингвистички и семантички информации за текстовите и зборовите што ги содржат. Постојат различни алгоритми и техники за машинско учење за извлекување на најрелевантните клучни зборови во текстот.

Зошто е важно извлекувањето на клучни зборови?

Извлекувањето на клучни зборови и екстракција на клучни фрази се важни поради неколку причини:

  1. Оптимизација на пребарувачи (SEO) : Извлекувањето на клучни зборови помага да се идентификуваат најважните зборови и фрази во документот, што може да се користи за оптимизирање на содржината на веб-локацијата за пребарувачите.
  2. Резимирање на текст: Извлекувањето на клучни зборови може да се користи за сумирање на документ со идентификување на најважните зборови и фрази што ја претставуваат главната тема на текстот.
  3. Класификација на текст: Извлекувањето на клучни зборови може да се користи за класификација на текстуалните документи во различни категории врз основа на клучните зборови што ги содржат. Ова е корисно во апликации како што е анализата на чувствата.
  4. Враќање информации: Извлекувањето на клучни зборови може да се користи за да се подобри точноста на системите за пронаоѓање информации преку идентификување на релевантни клучни зборови кои одговараат на барањето за пребарување на корисникот.

Како да направите екстракција на клучни зборови во R?

Еве неколку техники за екстракција на клучни зборови и случаи на нивна употреба:

  • Најдете клучни зборови со означување на делови од говорот за да ги идентификувате именките
  • Најдете клучни зборови засновани на Колокации и истовремени појави
  • Најдете клучни зборови врз основа на алгоритмот Textrank
  • Најдете клучни зборови врз основа на RAKE (брзо автоматско екстракција на клучни зборови)
  • Најдете клучни зборови врз основа на резултатите од парсирањето на зависност (добивање на темата на текстот)
извлекување клучни зборови од текст

Извлекување именки

Лесен начин да се најдат клучни зборови е со гледање на именките. Бидејќи секој термин има ознака Parts of Speech, ако сте бележеле текст користејќи го пакетот udpipe:

Код:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

Колокација и истовремени појави

Добијте изразување со повеќе зборови со гледање или на колокации (зборови кои следат еден по друг), на истовремени зборови во секоја реченица или на истовремени зборови на зборови што се блиску еден до друг.

Код:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

Textrank (мрежа на зборови нарачана од Google PageRank)

Textrank е уште еден метод за екстракција за клучни зборови. Пакетот textrank R го имплементира алгоритмот Textrank. Алгоритмот Textrank овозможува сумирање на текст и екстракција на клучни зборови. За да се изгради мрежа на зборови, алгоритмот проверува дали зборовите се следат еден по друг. Алгоритмот „Google PageRank“ извлекува релевантни зборови. Релевантните зборови што следат еден по друг се комбинираат заедно за да добијат клучни зборови. TextRank не произлегува од оригиналниот текст, бидејќи е пристап базиран на графикони.

Код:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

Брзо автоматско екстракција на клучни зборови: RAKE

RAKE е следниот основен алгоритам кој е акроним за Брзо автоматско екстракција на клучни зборови. RAKE е алгоритам за екстракција на клучни зборови независен од домен во обработката на природен јазик.

  1. Пресметувањето на резултат за секој збор што е дел од кој било клучен збор кандидат, се врши од
    • меѓу зборовите на клучните зборови кандидати, алгоритмот гледа колку пати секој збор се појавува и колку пати се појавува заедно со други зборови
    • секој збор добива оценка што е односот на зборот степен (колку пати се појавува заедно со други зборови) со зборот фреквенција
  2. Оценката RAKE за целосниот клучен збор кандидат се пресметува со сумирање на резултатите на секој од зборовите што го дефинираат клучниот збор кандидат

Код:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

Користете го излезот за парсирање на зависност за да го добиете номиналниот предмет и придавката за него

Кога сте ја извршиле прибелешката користејќи udpipe, полето dep_rel покажува како зборовите се поврзани еден со друг. Токен е поврзан со родителот кој користи token_id и head_token_id . Полето dep_rel покажува како зборовите се поврзуваат еден со друг. Видот на односите е на http://universaldependencies.org/u/dep/index.html.

Код:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

Што е рударство за текст?

Текст рударството во R се однесува на процес на анализа и извлекување на увиди од текстуални податоци користејќи го програмскиот јазик R и придружните библиотеки и пакети. Текст рударството вклучува неколку чекори, вклучувајќи чистење и преобработка на податоци, екстракција на карактеристики, статистичко моделирање и визуелизација.
Наtm пакетот обезбедува функции за читање на текстуални податоци, чистење и претпроцесирање на податоците и создавање матрици со термини за документи, кои вообичаено се користат за анализа на текстуални податоци. Наtidytext пакет обезбедува алатки за конвертирање на текстуални податоци во уредни рамки за податоци.
Некои вообичаени задачи во рударството на текст вклучуваат анализа на чувства, моделирање на теми, групирање документи и класификација на текст. Овие задачи вклучуваат примена на статистички техники и техники за машинско учење за да се идентификуваат обрасците и односите во текстуалните податоци.

Кои се API за екстракција на клучни зборови?

API-ите за извлекување клучни зборови се софтверски интерфејси кои им овозможуваат на програмерите да извлечат клучни зборови и клучни фрази од текст користејќи претходно изградени алгоритми и модели за машинско учење. Овие API обезбедуваат лесно за употреба и скалабилно решение за автоматизирање на процесот на екстракција на клучни зборови, без потреба од развивачите да градат и обучуваат свои модели.

Што е R?

R е програмски јазик со отворен код и софтверска средина за статистички пресметки, анализа на податоци и графика. Луѓето широко го користат R во академијата, истражувањето и индустријата за задачи како што се статистичко моделирање, визуелизација на податоци, машинско учење и ископување податоци. Има интерфејси со други програмски јазици како што се Python и C++ . Најдете подетални информации со онлајн упатства на GitHub.

Најчесто поставувани прашања

Што е CSV?

CSV значи „Вредности разделени со запирки“. Тоа е формат на датотека што складира и разменува податоци во формат на обичен текст, каде што секој ред претставува запис, а секоја колона претставува поле или атрибут на записот. Првиот ред од датотеката CSV обично ги складира заглавијата на колоните, кои обезбедуваат ознака за секое поле во базата на податоци.

Што е TF-IDF?

TF-IDF кратенка за “Термин фреквенција-инверзна фреквенција на документи”. Тоа е нумеричка статистика која ја одразува важноста на терминот во корпусот на документи. TF-IDF е вообичаено корисен во рударството текст, пребарувањето информации и апликациите за обработка на природен јазик.

Што се запирачки зборови?

Стоп-зборовите се вообичаени зборови што задачите за обработка на природен јазик (НЛП) ги исклучуваат бидејќи имаат мало значење или значење во анализата на текстот. Примерите за застанување вклучуваат „на“, „и“, „од“, „до“, „во“, „а“, „ан“, „е“ и „за“.

Споделете ја објавата:

Најсовремена вештачка интелигенција

Започнете со Ekritor сега!

Поврзани написи

Слика на компјутерски екран што прикажува разговор со GPT-3, прекриен со дијаграми што ги илустрираат чекорите за обработка на јазикот на вештачката интелигенција
Eskritor

Како работи GPT-3?

Следните чекори објаснуваат како GPT-3 работи за да генерира одговори: Зошто е корисен GPT-3? Еве список на причини зошто GPT-3 е корисен: Која е историјата на GPT-3? Развојот на GPT-3

Визуелна табела што прикажува податоци поврзани со влијанието на вештачката интелигенција на пазарот на труд за пишувачите на содржини
Eskritor

Дали вештачката интелигенција ќе ги замени пишувачите на содржина?

Да, писателите на вештачка интелигенција можат да заменат некои писатели, но никогаш не можат да ги заменат добрите писатели. Ќе замени одредени видови работни места за пишување. Генераторите на содржина

Визуелна претстава на архитектурата на ChatGPT, со трансформаторски модел кој овозможува разбирање на јазикот и генерирање способности
Eskritor

Како работи ChatGPT?

На високо ниво, ChatGPT е модел за длабоко учење кој користи невронска мрежа за да генерира текст сличен на човекот. Специфичната верзија на моделот, ChatGPT-3, се заснова на техника наречена