Cad is Eastóscadh Eochairfhocal ann?
Baineann eastóscadh eochairfhocail amach go huathoibríoch na focail agus na habairtí is mó a úsáidtear agus is tábhachtaí as téacs, ag baint úsáide as teicníc anailíse téacs. Cuidíonn sé le hachoimre a dhéanamh ar ábhar na dtéacsanna agus aithníonn sé na príomhábhair a phléitear, rud atá cabhrach le haghaidh taighde margaidh , anailís meoin agus cineálacha eile anailíse sonraí. Déanann an teicníc seo leabú abairtí a ghiaráil agus is féidir léi tacair mhóra sonraí a anailísiú i bhfíor-am.
Déanann meaisín-fhoghlaim hintleachta saorga (AI) le próiseáil teanga nádúrtha (NLP) (réimse na n-eolaíochtaí ríomhaireachta) miondealú ar theanga an duine ionas gur féidir le meaisíní í a thuiscint agus a anailísiú. Déanann eastóscadh eochairfhocail sreafaí oibre a uathoibriú amhail freagraí suirbhéanna a thagann isteach a chlibeáil nó freagairt ar cheisteanna práinneacha ó chustaiméirí. Úsáideann an teicníc faisnéis teanga agus shéimeantach faoi théacsanna agus na focail atá iontu. Tá halgartaim agus teicnící meaisínfhoghlama éagsúla ann chun na heochairfhocail is ábhartha a bhaint as téacs.
Cén Fáth a Bhfuil Eastóscadh Eochairfhocal Tábhachtach?
Tá eastóscadh eochairfhocail agus eastóscadh eochairfhrása tábhachtach ar roinnt cúiseanna:
- Optamú Innill Chuardaigh (Sinsearach) : Cabhraíonn eastóscadh eochairfhocail leis na focail agus na frásaí is tábhachtaí i ndoiciméad a aithint, ar féidir iad a úsáid chun ábhar an tsuímh Ghréasáin a bharrfheabhsú d’innill chuardaigh.
- Achoimriú téacs: Is féidir eastóscadh eochairfhocail a úsáid chun achoimre a dhéanamh ar dhoiciméad trí na focail agus na frásaí is tábhachtaí a léiríonn príomhthéama an téacs a shainaithint.
- Aicmiú téacs: Is féidir eastóscadh eochairfhocail a úsáid chun doiciméid téacs a rangú i gcatagóirí éagsúla bunaithe ar na heochairfhocail atá iontu. Tá sé seo úsáideach in iarratais ar nós anailís meon.
- Aisghabháil faisnéise: Is féidir eastóscadh eochairfhocail a úsáid chun cruinneas na gcóras aisghabhála faisnéise a fheabhsú trí na heochairfhocail ábhartha a mheaitseálann ceist chuardaigh úsáideora a shainaithint.
Conas Eastóscadh Eochairfhocal a Dhéanamh i R?
Seo roinnt teicníochtaí eastósctha eochairfhocail agus a gcásanna úsáide:
- Faigh eochairfhocail trí Chlibeáil Codanna Cainte a dhéanamh chun ainmfhocail a aithint
- Faigh eochairfhocail bunaithe ar Chomhshuíomhanna agus ar Chomhtharluithe
- Aimsigh eochairfhocail atá bunaithe ar an algartam Textrank
- Aimsigh eochairfhocail bunaithe ar RAKE (eastóscadh eochairfhocal go tapa)
- Faigh eochairfhocail bunaithe ar thorthaí parsála spleáchais (ábhar an téacs a fháil)
Sliocht Ainmfhocail
Bealach éasca chun eochairfhocail a aimsiú ná breathnú ar ainmfhocail. Toisc go bhfuil clib Páirteanna Cainte ag gach téarma má rinne tú anótáil ar théacs ag baint úsáide as an bpacáiste udpipe:
Cód:
stats <- subset(x, upos %in% "NOUN")
stats <- txt_freq(x = stats$lemma)
library(lattice)
stats$key <- factor(stats$key, levels = rev(stats$key))
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")
Comhlonnú & comhtharluithe
Faigh léiriú ilfhoclach trí bhreathnú ar chomhlonnuithe (focail i ndiaidh a chéile), ar chomhtharlú focal laistigh de gach abairt, nó ar chomhtharlú focal de fhocail atá gar dá chéile.
Cód:
Collocation (words following one another)
stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)
Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives
stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))
## Co-occurrences: How frequent do words follow one another
stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))
## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between
stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)
Textrank (líonra focal arna ordú ag Google Pagerank)
Is modh eastósctha eile é Textrank le haghaidh eochairfhocail. Cuireann an pacáiste textrank R an algartam Textrank i bhfeidhm. Ceadaíonn an algartam Textrank do achoimre téacs agus eastóscadh eochairfhocal. Chun líonra focal a thógáil, seiceálann an algartam an leanann focail a chéile. Tá focail ábhartha á bhaint as an algartam ‘Google Pagerank’. Focail ábhartha a leanann a chéile le chéile chun eochairfhocail a fháil. Ní thagann TextRank ón mbuntéacs, mar is cur chuige graf-bhunaithe é.
Cód:
stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ")
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)
Sliocht Mear Uathoibríoch Eochairfhocal: RAKE
Is é RAKE an chéad algartam bunúsach eile atá ina acrainm le haghaidh Eastóscadh Mear Uathoibríoch Eochairfhocail. Is algartam eastósctha eochairfhocal Fearainn-Neamhspleách é RAKE i bPróiseáil Teanga Nádúrtha.
-
Ag ríomh scór do gach focal atá mar chuid d’aon eochairfhocal iarrthóra, déantar trí
- i measc na bhfocal a bhaineann le heochairfhocail an iarrthóra, féachann an t-algartam cé mhéad uair a tharlaíonn gach focal agus cé mhéad uair a tharlaíonn sé le focail eile
- faigheann gach focal scór arb é an cóimheas idir céim an fhocail (cé mhéad uair a chomhtharlaíonn sé le focail eile) leis an minicíocht focal
- Ríomhtar scór RAKE don eochairfhocal iarrthóra iomlán trí scóir gach focal a shainíonn eochairfhocal an iarrthóra a achoimriú
Cód:
stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4)
head(subset(stats, freq > 3))
Úsáid aschur parsála spleáchais chun an t-ábhar ainmniúil agus an aidiacht de a fháil
Nuair a rinne tú an nóta le udpipe, léiríonn an réimse dep_rel an gaol atá idir focail agus a chéile. Baineann comhartha leis an tuismitheoir a úsáideann token_id agus head_token_id . Léiríonn an réimse dep_rel conas a nascann focail lena chéile. Tá an cineál caidrimh ag http://universaldependencies.org/u/dep/index.html.
Cód:
stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE)
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ"))
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ")
stats <- txt_freq(stats$term)
library(wordcloud)
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))
Cad is Mianadóireacht Téacs ann?
Tagraíonn mianadóireacht téacs in R don phróiseas chun léargais a anailísiú agus a bhaint as sonraí téacs ag baint úsáide as an teanga ríomhchlárúcháin R agus na leabharlanna agus na pacáistí gaolmhara. Tá roinnt céimeanna i gceist le mianadóireacht téacs, lena n-áirítear glanadh agus réamhphróiseáil sonraí, eastóscadh gnéithe, samhaltú staidrimh, agus léirshamhlú.
Tá an
tm
Soláthraíonn pacáiste feidhmeanna chun sonraí téacs a léamh, na sonraí a ghlanadh agus a réamhphróiseáil, agus maitrísí téarma doiciméad a chruthú, a úsáidtear go coitianta chun sonraí téacs a anailísiú. Tá an
tidytext
Soláthraíonn pacáiste uirlisí chun sonraí téacs a thiontú ina bhfrámaí sonraí slachtmhara.
I measc na dtascanna coitianta i mianadóireacht téacs tá anailís ar mheon, samhaltú topaicí, cnuasach doiciméad, agus rangú téacs. Baineann na tascanna seo le teicnící staidrimh agus meaisínfhoghlama a chur i bhfeidhm chun patrúin agus gaolta laistigh de shonraí téacs a aithint.
Comhéadain bogearraí is ea APInna eastósctha eochairfhocail a ligeann d’fhorbróirí eochairfhocail agus frásaí tábhachtacha a bhaint as téacs ag baint úsáide as algartaim réamhthógtha agus samhlacha meaisínfhoghlama. Soláthraíonn na APIanna seo réiteach atá éasca le húsáid agus inscálaithe chun an próiseas eastóscadh eochairfhocal a uathoibriú, gan gá d’fhorbróirí a gcuid samhlacha féin a thógáil agus a oiliúint.
Is teanga cláir foinse oscailte agus timpeallacht bogearraí é R le haghaidh ríomhaireachta staidrimh, anailís sonraí agus grafaic. Úsáideann daoine R go forleathan sa saol acadúil, taighde, agus tionscal le haghaidh tascanna ar nós samhaltú staidrimh, léirshamhlú sonraí, foghlaim meaisín, agus mianadóireacht sonraí. Tá comhéadain aige le teangacha ríomhchlárúcháin eile mar Python agus C++ . Faigh faisnéis níos mionsonraithe le ranganna teagaisc ar líne ar GitHub.