Hoe vindt een computer de kernwoorden uit een zin?

Hoe worden de kernwoorden uit de vraag gehaald hier op GV.

Bijvoorbeeld uit deze vraag:
"Is het stelen van een artikel, en het vervolgens weer terug leggen strafbaar?"
Haalt GV de kernwoorden stelen-artikel-vervolgens-terug-leggen (http://www.goeievraag.nl/vraag/stelen-artikel-vervolgens-terug-leggen.178057)

Is hier een speciaal algoritme voor, of verwijdert GV gewoon voorgeprogrammeerde woorden (de, het, is, zijn, waar, hoe, wanneer, ect.)?

Ik gebruik GV als voorbeeld, maar ik stel deze vraag in het algemeen.

Weet jij het antwoord?

/2500

Het beste antwoord

Het kan bijna niet anders, dan dat het zoekprogramma van GV werkt met een lijst van woorden, die niet geaccepteerd worden. En natuurlijk kan die lijst aangepast worden. B.v. als er op een gegeven moment 5 keer zoveel vragen en antwoorden zijn. Je kunt dat zelf eens controleren, door wat gangbare woorden in te voeren, zoals om, voor, pen, val, ma, ze, is en op. Het is wel duidelijk, dat in jouw voorbeeld alle woorden worden opgenomen, die er maar enigszins toe doen. Dat zijn dus in ieder geval stelen, artikel en strafbaar. Het is dus zeker niet zo, zoals eerder gesteld, dat er van zelfstandige naamwoorden uitgegaan zou worden. Voorbeelden van woorden die in ieder geval niet worden onthouden, (en dus nul hits tonen) zijn: op-in-het-ik-zijn-haar. Maar grappig genoeg doet "jij" weer wel mee (24038 hits) en dat ligt niet aan de woordlengte. Want ook "ga" krijgt 25178 hits. Andere opvallende woorden die toch worden meegenomen zijn: wel, laat, heet, maar (113609), met als klap op de vuurpijl "niet" met 120289 treffers. Ga dus niet op "niet" zoeken, want je bent weken bezig met vragen en antwoorden lezen ;-)

Het lijkt erop dat de zelfstandig naamwoorden blijven staan, de lidwoorden eromheen worden verwijderd en de werkwoorden (m.u.v. hulwerkwoorden zoals zijn hebben). Misschien ligt het wat gecompliceerder, maar als ik zo kijk vallen bovenstaande dingen mij op.

Misschien wel lange woorden?

Stel zelf een vraag

Ben je op zoek naar het antwoord die ene vraag die je misschien al tijden achtervolgt?

/100