Dit is het basisproject van OpenTaal. Na het aanpassen van de bestaande woordenlijst en spellingcontrole aan de normen van 2005 en het verkrijgen van het keurmerk van de Taalunie kan gesteld worden dat het project een succes is.

Dat blijkt dat ook uit de opname van onze spellingcontrole is vrijwel alle grote opensourceproducten.

Met versie 1.10 van de woordenlijst is deze uitgebreid met nog eens een flinke hoeveelheid woorden. Maar daar stopt het niet mee.

Voor weer een nieuwe versie wordt alweer een gigantische voorraad woorden aangeboden ter keuring. Dat zal dan vooral voor de taalgebruikers met een uitgebreidere woordenschat een hele verbetering zijn.

 

 

Aanpak

Om een woordenlijst te maken moet je eerst woorden verzamelen. Dat is de taak van het 'oogsten'.

De verzamelde woorden wordten deels geautomatiseerd beoordeeld en van informatie over de frequentie van gebruik voorzien. Dat zorgt er voor dat de meest nuttige woorden het eerst handmatig kunnen worden bekeken.

Die handmatige controle is heel intensief. Iedereen met taalgevoel en interesse voor de regels kan bij het beoordelen helpen.

Voor het verkrijgen van de goedkeuring van de Taalunie moet de verzameling woorden worden gesplitst in basiswoorden en afgeleide woordvormen (flexievormen). Ook dat is weer een combinatie van automatisering en het betere handwerk.

De basiswoorden kunnen dan aan de Taalunie worden aangeboden ter keuring. Over sommige woorden wordt dan nog gediscussieerd over het al dan niet opnemen. Maar het eindresultaat is een goedgekeurde woordenlijst.

Dat is echter nog geen spellingcontrole. Daarvoor komt de techniek van Hunspell, de spellingcontrolemotor van opensourceprogrammatuur bij kijken. Dat werk beperkt zich momenteel tot het 'eenvoudig' comprimeren van de woordenlijst en het toevoegen van wat specifieke kenmerken wat betreft hoofdlettergebruik. Mogelijk dat het in de toekomst ook een zaak wordt van samenstellingen programmeren.