Conas Eochairfhocail a Bhaint as Téacs i R?

Íomhá a léiríonn an comhéadan R le blúire de chód aibhsithe a úsáidtear chun eochairfhocail a bhaint as téacs.

Cad is Eastóscadh Eochairfhocal ann?

Baineann eastóscadh eochairfhocail amach go huathoibríoch na focail agus na habairtí is mó a úsáidtear agus is tábhachtaí as téacs, ag baint úsáide as teicníc anailíse téacs. Cuidíonn sé le hachoimre a dhéanamh ar ábhar na dtéacsanna agus aithníonn sé na príomhábhair a phléitear, rud atá cabhrach le haghaidh taighde margaidh , anailís meoin agus cineálacha eile anailíse sonraí. Déanann an teicníc seo leabú abairtí a ghiaráil agus is féidir léi tacair mhóra sonraí a anailísiú i bhfíor-am.

Déanann meaisín-fhoghlaim hintleachta saorga (AI) le próiseáil teanga nádúrtha (NLP) (réimse na n-eolaíochtaí ríomhaireachta) miondealú ar theanga an duine ionas gur féidir le meaisíní í a thuiscint agus a anailísiú. Déanann eastóscadh eochairfhocail sreafaí oibre a uathoibriú amhail freagraí suirbhéanna a thagann isteach a chlibeáil nó freagairt ar cheisteanna práinneacha ó chustaiméirí. Úsáideann an teicníc faisnéis teanga agus shéimeantach faoi théacsanna agus na focail atá iontu. Tá halgartaim agus teicnící meaisínfhoghlama éagsúla ann chun na heochairfhocail is ábhartha a bhaint as téacs.

Cén Fáth a Bhfuil Eastóscadh Eochairfhocal Tábhachtach?

Tá eastóscadh eochairfhocail agus eastóscadh eochairfhrása tábhachtach ar roinnt cúiseanna:

  1. Optamú Innill Chuardaigh (Sinsearach) : Cabhraíonn eastóscadh eochairfhocail leis na focail agus na frásaí is tábhachtaí i ndoiciméad a aithint, ar féidir iad a úsáid chun ábhar an tsuímh Ghréasáin a bharrfheabhsú d’innill chuardaigh.
  2. Achoimriú téacs: Is féidir eastóscadh eochairfhocail a úsáid chun achoimre a dhéanamh ar dhoiciméad trí na focail agus na frásaí is tábhachtaí a léiríonn príomhthéama an téacs a shainaithint.
  3. Aicmiú téacs: Is féidir eastóscadh eochairfhocail a úsáid chun doiciméid téacs a rangú i gcatagóirí éagsúla bunaithe ar na heochairfhocail atá iontu. Tá sé seo úsáideach in iarratais ar nós anailís meon.
  4. Aisghabháil faisnéise: Is féidir eastóscadh eochairfhocail a úsáid chun cruinneas na gcóras aisghabhála faisnéise a fheabhsú trí na heochairfhocail ábhartha a mheaitseálann ceist chuardaigh úsáideora a shainaithint.

Conas Eastóscadh Eochairfhocal a Dhéanamh i R?

Seo roinnt teicníochtaí eastósctha eochairfhocail agus a gcásanna úsáide:

  • Faigh eochairfhocail trí Chlibeáil Codanna Cainte a dhéanamh chun ainmfhocail a aithint
  • Faigh eochairfhocail bunaithe ar Chomhshuíomhanna agus ar Chomhtharluithe
  • Aimsigh eochairfhocail atá bunaithe ar an algartam Textrank
  • Aimsigh eochairfhocail bunaithe ar RAKE (eastóscadh eochairfhocal go tapa)
  • Faigh eochairfhocail bunaithe ar thorthaí parsála spleáchais (ábhar an téacs a fháil)
eochairfhocail a bhaint as téacs

Sliocht Ainmfhocail

Bealach éasca chun eochairfhocail a aimsiú ná breathnú ar ainmfhocail. Toisc go bhfuil clib Páirteanna Cainte ag gach téarma má rinne tú anótáil ar théacs ag baint úsáide as an bpacáiste udpipe:

Cód:

stats <- subset(x, upos %in% "NOUN") 
stats <- txt_freq(x = stats$lemma) 
library(lattice) 
stats$key <- factor(stats$key, levels = rev(stats$key)) 
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Most occurring nouns", xlab = "Freq")

Comhlonnú & comhtharluithe

Faigh léiriú ilfhoclach trí bhreathnú ar chomhlonnuithe (focail i ndiaidh a chéile), ar chomhtharlú focal laistigh de gach abairt, nó ar chomhtharlú focal de fhocail atá gar dá chéile.

Cód:

Collocation (words following one another)

stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)

Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives

stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))

## Co-occurrences: How frequent do words follow one another

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))

## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between

stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)

Textrank (líonra focal arna ordú ag Google Pagerank)

Is modh eastósctha eile é Textrank le haghaidh eochairfhocail. Cuireann an pacáiste textrank R an algartam Textrank i bhfeidhm. Ceadaíonn an algartam Textrank do achoimre téacs agus eastóscadh eochairfhocal. Chun líonra focal a thógáil, seiceálann an algartam an leanann focail a chéile. Tá focail ábhartha á bhaint as an algartam ‘Google Pagerank’. Focail ábhartha a leanann a chéile le chéile chun eochairfhocail a fháil. Ní thagann TextRank ón mbuntéacs, mar is cur chuige graf-bhunaithe é.

Cód:

stats <- textrank_keywords(x$lemma, relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 8, sep = " ") 
stats <- subset(stats$keywords, ngram > 1 & freq >= 5) library(wordcloud) wordcloud(words = stats$keyword, freq = stats$freq)

Sliocht Mear Uathoibríoch Eochairfhocal: RAKE

Is é RAKE an chéad algartam bunúsach eile atá ina acrainm le haghaidh Eastóscadh Mear Uathoibríoch Eochairfhocail. Is algartam eastósctha eochairfhocal Fearainn-Neamhspleách é RAKE i bPróiseáil Teanga Nádúrtha.

  1. Ag ríomh scór do gach focal atá mar chuid d’aon eochairfhocal iarrthóra, déantar trí
    • i measc na bhfocal a bhaineann le heochairfhocail an iarrthóra, féachann an t-algartam cé mhéad uair a tharlaíonn gach focal agus cé mhéad uair a tharlaíonn sé le focail eile
    • faigheann gach focal scór arb é an cóimheas idir céim an fhocail (cé mhéad uair a chomhtharlaíonn sé le focail eile) leis an minicíocht focal
  2. Ríomhtar scór RAKE don eochairfhocal iarrthóra iomlán trí scóir gach focal a shainíonn eochairfhocal an iarrthóra a achoimriú

Cód:

stats <- keywords_rake(x = x, term = "token", group = c("doc_id", "paragraph_id", "sentence_id"), relevant = x$upos %in% c("NOUN", "ADJ"), ngram_max = 4) 
head(subset(stats, freq > 3)) 

Úsáid aschur parsála spleáchais chun an t-ábhar ainmniúil agus an aidiacht de a fháil

Nuair a rinne tú an nóta le udpipe, léiríonn an réimse dep_rel an gaol atá idir focail agus a chéile. Baineann comhartha leis an tuismitheoir a úsáideann token_id agus head_token_id . Léiríonn an réimse dep_rel conas a nascann focail lena chéile. Tá an cineál caidrimh ag http://universaldependencies.org/u/dep/index.html.

Cód:

stats <- merge(x, x, by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"), by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"), all.x = TRUE, all.y = FALSE, suffixes = c("", "_parent"), sort = FALSE) 
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ")) 
stats$term <- paste(stats$lemma_parent, stats$lemma, sep = " ") 
stats <- txt_freq(stats$term) 
library(wordcloud) 
wordcloud(words = stats$key, freq = stats$freq, min.freq = 3, max.words = 100, random.order = FALSE, colors = brewer.pal(6, "Dark2"))

Cad is Mianadóireacht Téacs ann?

Tagraíonn mianadóireacht téacs in R don phróiseas chun léargais a anailísiú agus a bhaint as sonraí téacs ag baint úsáide as an teanga ríomhchlárúcháin R agus na leabharlanna agus na pacáistí gaolmhara. Tá roinnt céimeanna i gceist le mianadóireacht téacs, lena n-áirítear glanadh agus réamhphróiseáil sonraí, eastóscadh gnéithe, samhaltú staidrimh, agus léirshamhlú.
Tá antm Soláthraíonn pacáiste feidhmeanna chun sonraí téacs a léamh, na sonraí a ghlanadh agus a réamhphróiseáil, agus maitrísí téarma doiciméad a chruthú, a úsáidtear go coitianta chun sonraí téacs a anailísiú. Tá antidytext Soláthraíonn pacáiste uirlisí chun sonraí téacs a thiontú ina bhfrámaí sonraí slachtmhara.
I measc na dtascanna coitianta i mianadóireacht téacs tá anailís ar mheon, samhaltú topaicí, cnuasach doiciméad, agus rangú téacs. Baineann na tascanna seo le teicnící staidrimh agus meaisínfhoghlama a chur i bhfeidhm chun patrúin agus gaolta laistigh de shonraí téacs a aithint.

Cad iad APIs Eastóscadh Eochairfhocail?

Comhéadain bogearraí is ea APInna eastósctha eochairfhocail a ligeann d’fhorbróirí eochairfhocail agus frásaí tábhachtacha a bhaint as téacs ag baint úsáide as algartaim réamhthógtha agus samhlacha meaisínfhoghlama. Soláthraíonn na APIanna seo réiteach atá éasca le húsáid agus inscálaithe chun an próiseas eastóscadh eochairfhocal a uathoibriú, gan gá d’fhorbróirí a gcuid samhlacha féin a thógáil agus a oiliúint.

Cad é R?

Is teanga cláir foinse oscailte agus timpeallacht bogearraí é R le haghaidh ríomhaireachta staidrimh, anailís sonraí agus grafaic. Úsáideann daoine R go forleathan sa saol acadúil, taighde, agus tionscal le haghaidh tascanna ar nós samhaltú staidrimh, léirshamhlú sonraí, foghlaim meaisín, agus mianadóireacht sonraí. Tá comhéadain aige le teangacha ríomhchlárúcháin eile mar Python agus C++ . Faigh faisnéis níos mionsonraithe le ranganna teagaisc ar líne ar GitHub.

Ceisteanna Coitianta

Cad é CSV?

Seasann CSV do “Luachanna Camóga Scartha”. Is formáid comhaid é a stórálann agus a mhalartaíonn sonraí i bhformáid gnáth-théacs, áit a seasann gach sraith le taifead, agus seasann gach colún do réimse nó tréith den taifead. Is gnách go stórálann an chéad ró de chomhad CSV ceanntásca na gcolún, a sholáthraíonn lipéad do gach réimse sa tacar sonraí.

Cad é TF-IDF?

Seasann TF-IDF do “Minicíocht Téarma-Minicíocht Doiciméad Inbhéartach”. Is staitistic uimhriúil é a léiríonn an tábhacht a bhaineann le téarma i gcorpas doiciméad. Tá TF-IDF úsáideach go coitianta i mianadóireacht téacs, aisghabháil faisnéise, agus iarratais próiseála teanga nádúrtha.

Cad iad Stopfhocail?

Focail choitianta is ea stopfhocail a eisiann tascanna próiseála teanga nádúrtha (NLP) toisc gur beag brí nó tábhacht a bhaineann leo in anailís téacs. I measc samplaí de stopfhocail tá “an”, “agus”, “de”, “go”, “in”, “a”, “an”, “is”, agus “for”.

Roinn an Post:

AI den scoth

Cuir tús leis an Eskritor Anois!

Airteagail Ghaolmhara

Íomhá de scáileán ríomhaire ag taispeáint comhrá le GPT-3, forleagtha le léaráidí a léiríonn céimeanna próiseála teanga an AI
Eskritor

Conas a oibríonn GPT-3?

Míníonn na céimeanna seo thíos conas a oibríonn GPT-3 chun freagraí a ghiniúint: Cén fáth a bhfuil GPT-3 Úsáideach? Seo liosta de na cúiseanna a bhfuil GPT-3 úsáideach: Cad é

Amharc-chairt a thaispeánann sonraí a bhaineann le tionchar AI ar an margadh fostaíochta do scríbhneoirí ábhair
Eskritor

An dtiocfaidh AI in ionad Scríbhneoirí Ábhar?

Sea, is féidir le scríbhneoirí AI ionad roinnt scríbhneoirí, ach ní féidir leo a chur in ionad scríbhneoirí maithe. Tiocfaidh sé in ionad cineálacha áirithe post scríbhneoireachta. Is féidir le

Léiriú amhairc ar ailtireacht ChatGPT, ina bhfuil samhail an chlaochladáin a chuireann ar chumas a thuiscint teanga agus a chumas giniúna
Eskritor

Conas a Oibríonn ChatGPT?

Ar leibhéal ard, is samhail foghlama domhain é ChatGPT a úsáideann líonra néareolaíoch chun téacs daonna a ghiniúint. Tá leagan sonrach an mhúnla, ChatGPT-3, bunaithe ar theicníc ar a dtugtar