08-08-14

Frequente woorden in het Nederlands


Het is al jaren bekend: "I" (=ik) is het meest gebruikte persoonlijke voornaamwoord in het Engels.

Maar hoe zit dat in het Nederlands?

In 1975 verscheen een frequentiewoordenboek van het Nederlands, en dit jaar is er eindelijk een aangepaste versie. Niets te vroeg, want gms, webpage, internet, bluray en nog heel wat andere woorden bestonden in 1975 nog niet. 'Computer' bestond wel al, maar of je werkte emree, of je las sciencefiction, en anders kwam dat woord nauwelijks over je lippen, en meestal met enige plechtigheid.

Dit jaar verscheen 'A Frequency Dictionary of Dutch' door Carole Tiberius en Tanneke Schoonheim bij Routledge.
Ook toevallig: Carole Tiberius is computerlinguïst, en Tanneke Schoonheim is lexicograaf. Dat zou in 1975 ook anders zijn geweest.

Het zijn twee medewerkers van het Instituut voor Nederlandse Lexicologie in Leiden. Ze zochten de 5.000 vaakst voorkomende woorden en rangschikten die in vier genres: proza, krantenartikelen, gesproken Nederlands en .... webmateriaal.

De 5.000 woorden in het woordenboek kwamen in minstens 99,9 procent van de onderzochte documenten voor.
Het onderzoek wou het karakollenprobleem vermijden. Daarom werden alle onderzochte teksten opgedeeld in stukken van 2000 woorden. Het woord 'karakol' wordt weinig gebruikt, maar als er in de onderzochte teksten toevallig een stuk over karakollen zit, schiet de frequentie ervan omhoog. Door het volledige corpus in gelijke delen van 2000 woorden te splitsen, kan zo'n concentratie worden vastgesteld.

En wat is nu dat meest gebruikte woord? Het lidwoord "de". (Het werk van een vertaler is echt wel boeiender dan dat van een taalkundige - grijns.) Ook in het Engels en in het Frans staan "the" en "le" op nummer één. Daarna volgen: "en", "in", "van", "op", "zijn", "het", "een", "voor" en "die". Het zijn dus allemaal woordjes die helpen een zin te organiseren.

Die 5.000 hoogfrequente woorden komen in 95 procent van de Nederlandstalige teksten en gesprekken voor. Maar 200.000 woorden maken deel uit van de overige 5 procent.

Post een commentaar