Hvernig á að draga leitarorð úr texta í R?

Mynd sem sýnir R viðmótið með auðkenndum kóðabút sem notaður er til að draga leitarorð úr texta.

Hvað er lykilorðaútdráttur?

Útdráttur leitarorða dregur sjálfkrafa mest notuðu og mikilvægustu orðin og orðasamböndin úr texta með textagreiningartækni. Það hjálpar til við að draga saman innihald texta og þekkja helstu efni sem fjallað er um, sem er gagnlegt fyrir markaðsrannsóknir , tilfinningagreiningu og aðrar tegundir gagnagreiningar. Þessi tækni nýtir innfellingu setninga og getur greint stór gagnasöfn í rauntíma.

Vélræn gervigreind (AI) með náttúrulegri málvinnslu (NLP) (svið tölvuvísinda) brýtur niður mannamál þannig að vélar geti skilið það og greint það. Útdráttur leitarorða gerir verkflæði sjálfvirkan eins og að merkja könnunarsvör sem berast eða svara brýnum fyrirspurnum viðskiptavina. Tæknin notar málfræðilegar og merkingarlegar upplýsingar um texta og þau orð sem þeir innihalda. Það eru mismunandi reiknirit og aðferðir til að læra véla til að draga út viðeigandi leitarorð í texta.

Hvers vegna er lykilorðaútdráttur mikilvægur?

Útdráttur leitarorða og útdráttur lykilorða eru mikilvæg af nokkrum ástæðum:

  1. Leitarvélabestun (SEO) : Útdráttur leitarorðs hjálpar til við að bera kennsl á mikilvægustu orðin og orðasamböndin í skjali, sem hægt er að nota til að fínstilla vefsíðuefni fyrir leitarvélar.
  2. Textasamantekt: Hægt er að nota lykilorðaútdrátt til að draga saman skjal með því að auðkenna mikilvægustu orðin og orðasamböndin sem tákna meginþema textans.
  3. Textaflokkun: Hægt er að nota lykilorðaútdrátt til að flokka textaskjöl í mismunandi flokka út frá leitarorðum sem þau innihalda. Þetta er gagnlegt í forritum eins og tilfinningagreiningu.
  4. Upplýsingaleit: Hægt er að nota lykilorðaútdrátt til að bæta nákvæmni upplýsingaleitarkerfa með því að auðkenna viðeigandi leitarorð sem passa við leitarfyrirspurn notanda.

Hvernig á að gera leitarorðaútdrátt í R?

Hér eru nokkrar aðferðir við útdrátt leitarorða og notkunartilvik þeirra:

  • Finndu leitarorð með því að merkja orðaflokka til að bera kennsl á nafnorð
  • Finndu leitarorð byggð á samvistum og samvistum
  • Finndu leitarorð byggð á Textrank reikniritinu
  • Finndu leitarorð byggð á RAKE (hröð sjálfvirk leitarorðaútdráttur)
  • Finndu leitarorð byggð á niðurstöðum úrgreiningar á ósjálfstæði (fá efni textans)
draga leitarorð úr texta

Að draga nafnorð

Auðveld leið til að finna leitarorð er að skoða nafnorð. Þar sem hvert hugtak hefur orðaskiptamerki ef þú skrifaðir athugasemdir með udpipe pakkanum:

Kóði:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

Söfnun & samvistir

Fáðu tjáningu margra orða með því að horfa annaðhvort á samsetningar (orð sem fylgja hvert öðru), á samfall orða í hverri setningu eða á orðasamsetningu orða sem eru nálægt hvert öðru.

Kóði:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

Textaröðun (orðanet raðað eftir Google Pagerank)

Textrank er önnur útdráttaraðferð fyrir leitarorð. Textrank R pakkinn útfærir Textrank reikniritið. Textrank reikniritið gerir kleift að draga saman texta og draga úr leitarorðum. Til að búa til orðanet athugar reikniritið hvort orð fylgi hvert öðru. ‘Google Pagerank’ reikniritið er að draga úr viðeigandi orð. Viðeigandi orð sem fylgja hvert öðru sameinast til að fá leitarorð. TextRank stafar ekki af upprunalega textanum, þar sem það er aðferð sem byggir á línuritum.

Kóði:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

Hröð sjálfvirk lykilorðaútdráttur: RAKE

RAKE er næsta grunnalgrím sem er skammstöfun fyrir Rapid Automatic Keyword Extraction. RAKE er lénsóháð leitarorðaútdráttaralgrím í náttúrulegri málvinnslu.

  1. Útreikningur á einkunn fyrir hvert orð sem er hluti af hvaða leitarorð sem er frambjóðandi er gert af
    • meðal orða umsækjenda leitarorða lítur reiknirit á hversu oft hvert orð kemur fyrir og hversu oft það kemur fyrir með öðrum orðum
    • hvert orð fær stig sem er hlutfall orðsins gráðu (hversu oft það kemur fyrir með öðrum orðum) og orðatíðni
  2. RAKE stig fyrir heildar leitarorð umsækjanda er reiknað með því að leggja saman stig hvers orðs sem skilgreina leitarorð umsækjanda

Kóði:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

Notaðu úttaksþáttun ósjálfstæðis til að fá nafnorðið og lýsingarorðið fyrir það

Þegar þú framkvæmir athugasemdina með udpipe, sýnir dep_rel reiturinn hvernig orð tengjast hvert öðru. Auðkenni er tengt foreldri sem notar token_id og head_token_id . Dep_rel reiturinn gefur til kynna hvernig orð tengjast hvert öðru. Tegund samskipta er á http://universaldependencies.org/u/dep/index.html.

Kóði:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

Hvað er textanám?

Textanám í R vísar til þess ferlis að greina og draga innsýn úr textagögnum með því að nota R forritunarmálið og tengd bókasöfn og pakka. Textanám felur í sér nokkur skref, þar á meðal gagnahreinsun og forvinnslu, útdrátt eiginleika, tölfræðilega líkangerð og myndgerð.
Thetm pakkinn býður upp á aðgerðir til að lesa textagögn, hreinsa og forvinna gögnin og búa til skjalatímafylki, sem eru almennt notuð til að greina textagögn. Thetidytext pakkinn býður upp á verkfæri til að umbreyta textagögnum í snyrtilega gagnaramma.
Sum algeng verkefni í textanámum eru tilfinningagreining, efnislíkön, skjalaþyrping og textaflokkun. Þessi verkefni fela í sér að beita tölfræðilegum og vélrænum aðferðum til að bera kennsl á mynstur og tengsl innan textagagna.

Hvað eru API fyrir lykilorðaútdrátt?

API fyrir lykilorðaútdrátt eru hugbúnaðarviðmót sem gera forriturum kleift að draga leitarorð og lykilsetningar úr texta með því að nota fyrirfram innbyggða reiknirit og vélanámslíkön. Þessi API veita auðveld í notkun og stigstærð lausn til að gera sjálfvirkan ferlið við útdrátt leitarorða, án þess að þróunaraðilar þurfi að smíða og þjálfa eigin líkön.

Hvað er R?

R er opið forritunarmál og hugbúnaðarumhverfi fyrir tölfræði, gagnagreiningu og grafík. Fólk notar R víða í háskóla, rannsóknum og iðnaði fyrir verkefni eins og tölfræðilega líkanagerð, gagnasýn, vélanám og gagnanám. Það hefur tengi við önnur forritunarmál eins og Python og C++ . Finndu ítarlegri upplýsingar með leiðbeiningum á netinu á GitHub.

Algengar spurningar

Hvað er CSV?

CSV stendur fyrir „Comma-Separated Values“. Það er skráarsnið sem geymir og skiptist á gögnum á látlausu textasniði, þar sem hver röð táknar færslu og hver dálkur táknar reit eða eiginleika færslunnar. Fyrsta línan í CSV skrá geymir venjulega dálkahausana, sem gefa merki fyrir hvern reit í gagnasafninu.

Hvað er TF-IDF?

TF-IDF stendur fyrir „Term Frequency-Inverse Document Frequency“. Það er töluleg tölfræði sem endurspeglar mikilvægi hugtaks í skjalasafni. TF-IDF er almennt gagnlegt í textanámum, upplýsingaleit og náttúrulegu tungumálavinnsluforritum.

Hvað eru stöðvunarorð?

Stöðvaorð eru algeng orð sem náttúruleg málvinnsla (NLP) verkefni útiloka vegna þess að þau hafa litla merkingu eða þýðingu í textagreiningu. Dæmi um stöðvunarorð eru „the“, „og“, „af“, „til“, „í“, „a“, „an“, „er“ og „fyrir“.

Deildu færslunni:

Nýjasta gervigreind

Byrjaðu með Eskritor núna!

tengdar greinar

Mynd af tölvuskjá sem sýnir samtal við GPT-3, lagt yfir skýringarmyndir sem sýna málvinnsluþrep gervigreindar
Eskritor

Hvernig virkar GPT-3?

Neðangreind skref útskýra hvernig GPT-3 virkar til að búa til svör: Af hverju er GPT-3 gagnlegt? Hér er listi yfir ástæður þess að GPT-3 er gagnlegt: Hver er saga GPT-3?

Myndrit sem sýnir gögn sem tengjast áhrifum gervigreindar á vinnumarkaðinn fyrir efnishöfunda
Eskritor

Mun gervigreind koma í stað efnisritara?

Já, gervigreind rithöfundar geta komið í stað suma rithöfunda, en þeir geta aldrei komið í stað góðra rithöfunda. Það mun leysa ákveðnar tegundir af ritstörfum af hólmi. AI efnisframleiðendur geta

Sjónræn framsetning á arkitektúr ChatGPT, með spennilíkaninu sem gerir tungumálaskilning þess og kynslóðargetu kleift
Eskritor

Hvernig virkar ChatGPT?

Á háu stigi er ChatGPT djúpnámslíkan sem notar taugakerfi til að búa til mannlegan texta. Sértæk útgáfa líkansins, ChatGPT-3, er byggð á tækni sem kallast spenniarkitektúr. Þessi tegund byggingarlistar gerir