Hvernig á að draga leitarorð úr texta í R?

Mynd sem sýnir R viðmótið með auðkenndum kóðabút sem notaður er til að draga leitarorð úr texta.
Mynd sem sýnir R viðmótið með auðkenndum kóðabút sem notaður er til að draga leitarorð úr texta.

Eskritor 2023-07-06

Hvað er lykilorðaútdráttur?

Útdráttur leitarorða dregur sjálfkrafa mest notuðu og mikilvægustu orðin og orðasamböndin úr texta með textagreiningartækni. Það hjálpar til við að draga saman innihald texta og þekkja helstu efni sem fjallað er um, sem er gagnlegt fyrir markaðsrannsóknir , tilfinningagreiningu og aðrar tegundir gagnagreiningar. Þessi tækni nýtir innfellingu setninga og getur greint stór gagnasöfn í rauntíma.

Vélræn gervigreind (AI) með náttúrulegri málvinnslu (NLP) (svið tölvuvísinda) brýtur niður mannamál þannig að vélar geti skilið það og greint það. Útdráttur leitarorða gerir verkflæði sjálfvirkan eins og að merkja könnunarsvör sem berast eða svara brýnum fyrirspurnum viðskiptavina. Tæknin notar málfræðilegar og merkingarlegar upplýsingar um texta og þau orð sem þeir innihalda. Það eru mismunandi reiknirit og aðferðir til að læra véla til að draga út viðeigandi leitarorð í texta.

Hvers vegna er lykilorðaútdráttur mikilvægur?

Útdráttur leitarorða og útdráttur lykilorða eru mikilvæg af nokkrum ástæðum:

  1. Leitarvélabestun (SEO) : Útdráttur leitarorðs hjálpar til við að bera kennsl á mikilvægustu orðin og orðasamböndin í skjali, sem hægt er að nota til að fínstilla vefsíðuefni fyrir leitarvélar.
  2. Textasamantekt: Hægt er að nota lykilorðaútdrátt til að draga saman skjal með því að auðkenna mikilvægustu orðin og orðasamböndin sem tákna meginþema textans.
  3. Textaflokkun: Hægt er að nota lykilorðaútdrátt til að flokka textaskjöl í mismunandi flokka út frá leitarorðum sem þau innihalda. Þetta er gagnlegt í forritum eins og tilfinningagreiningu.
  4. Upplýsingaleit: Hægt er að nota lykilorðaútdrátt til að bæta nákvæmni upplýsingaleitarkerfa með því að auðkenna viðeigandi leitarorð sem passa við leitarfyrirspurn notanda.

Hvernig á að gera leitarorðaútdrátt í R?

Hér eru nokkrar aðferðir við útdrátt leitarorða og notkunartilvik þeirra:

  • Finndu leitarorð með því að merkja orðaflokka til að bera kennsl á nafnorð
  • Finndu leitarorð byggð á samvistum og samvistum
  • Finndu leitarorð byggð á Textrank reikniritinu
  • Finndu leitarorð byggð á RAKE (hröð sjálfvirk leitarorðaútdráttur)
  • Finndu leitarorð byggð á niðurstöðum úrgreiningar á ósjálfstæði (fá efni textans)
draga leitarorð úr texta

Að draga nafnorð

Auðveld leið til að finna leitarorð er að skoða nafnorð. Þar sem hvert hugtak hefur orðaskiptamerki ef þú skrifaðir athugasemdir með udpipe pakkanum:

Kóði:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

Söfnun & samvistir

Fáðu tjáningu margra orða með því að horfa annaðhvort á samsetningar (orð sem fylgja hvert öðru), á samfall orða í hverri setningu eða á orðasamsetningu orða sem eru nálægt hvert öðru.

Kóði:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

Textaröðun (orðanet raðað eftir Google Pagerank)

Textrank er önnur útdráttaraðferð fyrir leitarorð. Textrank R pakkinn útfærir Textrank reikniritið. Textrank reikniritið gerir kleift að draga saman texta og draga úr leitarorðum. Til að búa til orðanet athugar reikniritið hvort orð fylgi hvert öðru. ‘Google Pagerank’ reikniritið er að draga úr viðeigandi orð. Viðeigandi orð sem fylgja hvert öðru sameinast til að fá leitarorð. TextRank stafar ekki af upprunalega textanum, þar sem það er aðferð sem byggir á línuritum.

Kóði:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

Hröð sjálfvirk lykilorðaútdráttur: RAKE

RAKE er næsta grunnalgrím sem er skammstöfun fyrir Rapid Automatic Keyword Extraction. RAKE er lénsóháð leitarorðaútdráttaralgrím í náttúrulegri málvinnslu.

  1. Útreikningur á einkunn fyrir hvert orð sem er hluti af hvaða leitarorð sem er frambjóðandi er gert af
    • meðal orða umsækjenda leitarorða lítur reiknirit á hversu oft hvert orð kemur fyrir og hversu oft það kemur fyrir með öðrum orðum
    • hvert orð fær stig sem er hlutfall orðsins gráðu (hversu oft það kemur fyrir með öðrum orðum) og orðatíðni
  2. RAKE stig fyrir heildar leitarorð umsækjanda er reiknað með því að leggja saman stig hvers orðs sem skilgreina leitarorð umsækjanda

Kóði:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

Notaðu úttaksþáttun ósjálfstæðis til að fá nafnorðið og lýsingarorðið fyrir það

Þegar þú framkvæmir athugasemdina með udpipe, sýnir dep_rel reiturinn hvernig orð tengjast hvert öðru. Auðkenni er tengt foreldri sem notar token_id og head_token_id . Dep_rel reiturinn gefur til kynna hvernig orð tengjast hvert öðru. Tegund samskipta er á http://universaldependencies.org/u/dep/index.html.

Kóði:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

Hvað er textanám?

Textanám í R vísar til þess ferlis að greina og draga innsýn úr textagögnum með því að nota R forritunarmálið og tengd bókasöfn og pakka. Textanám felur í sér nokkur skref, þar á meðal gagnahreinsun og forvinnslu, útdrátt eiginleika, tölfræðilega líkangerð og myndgerð.
The tm pakkinn býður upp á aðgerðir til að lesa textagögn, hreinsa og forvinna gögnin og búa til skjalatímafylki, sem eru almennt notuð til að greina textagögn. The tidytext pakkinn býður upp á verkfæri til að umbreyta textagögnum í snyrtilega gagnaramma.
Sum algeng verkefni í textanámum eru tilfinningagreining, efnislíkön, skjalaþyrping og textaflokkun. Þessi verkefni fela í sér að beita tölfræðilegum og vélrænum aðferðum til að bera kennsl á mynstur og tengsl innan textagagna.

API fyrir lykilorðaútdrátt eru hugbúnaðarviðmót sem gera forriturum kleift að draga leitarorð og lykilsetningar úr texta með því að nota fyrirfram innbyggða reiknirit og vélanámslíkön. Þessi API veita auðveld í notkun og stigstærð lausn til að gera sjálfvirkan ferlið við útdrátt leitarorða, án þess að þróunaraðilar þurfi að smíða og þjálfa eigin líkön.

R er opið forritunarmál og hugbúnaðarumhverfi fyrir tölfræði, gagnagreiningu og grafík. Fólk notar R víða í háskóla, rannsóknum og iðnaði fyrir verkefni eins og tölfræðilega líkanagerð, gagnasýn, vélanám og gagnanám. Það hefur tengi við önnur forritunarmál eins og Python og C++ . Finndu ítarlegri upplýsingar með leiðbeiningum á netinu á GitHub.

Deila færslu

AI Rithöfundur

img

Eskritor

Búðu til AI myndað efni