logo-opentaal
Intro
Nieuws
Documentatie
Spellingbestanden
Software
Bestanden
Projecten
Woorddetails
Woorden bijdragen
Synoniemen
Grammatica
Statistiek
Suggesties?
Mailinglists
Licentie
Wie zijn wij?
English
Zoeken
Links

Project: spellingcontrole

In eerste instantie is dit project het urgentst van OpenTaal. De spellingcontrolebestanden van NTG en OpenOffice.org zullen moeten worden aangepast aan de nieuwe spelling van 2005, die in de landen van de Taalunie (Nederland, België en Suriname), vanaf augustus 2006 verplicht gebruikt moet worden in in overheid en onderwijs.

Na overleg met OSOSS heeft de Nederlandse Taalunie aangeboden dat een open-source spellingwoordenlijst mag worden aangeboden voor certificatie. Dit houdt in dat van alle woorden in de woordenlijst wordt gecheckt of ze conform zijn met de nieuwe spelling. De zo nodig gecorrigeerde woordenlijst kan dan van een keurmerk van de NTU worden voorzien.

Nu is het wel zo dat de NTU geen overbodig werk wenst, en het is dus de bedoeling dat bijvoorbeeld niet alle mogelijke verbuigingen van woorden in de aangeboden lijst voorkomen, alleen de basiswoorden. En het kan ook problemen opleveren als de lijst heel veel foutgespelde woorden bevat. Er moet dus het een en ander aan werk worden verricht om de lijst in een geschikte vorm te gieten.

Om de NTU voldoende tijd te geven voor het controleren voor de woordenlijst, zodat de nieuwe spellingwoordenlijsten op tijd beschikbaar zijn, mikken we er op om in maart 2006 de woordenlijst klaar te hebben. Dat wordt nog flink aanpoten dus...

Aanpak

In principe zullen we voor alle arbeidsintensieve onderdelen van het project moeten rekenen op enthousiaste vrijwilligers. Hierop zal de aanpak dan ook zijn toegesneden. We denken aan de de volgende stappen:

  • De NTU heeft in principe toegestemd om, als extra eerste stap, onze woordenlijst te vergelijken met de keurmerkdatabase zonder handmatige redactie van de resultaten. Onze woordenlijst wordt dan gesplitst in een "witte" lijst met woorden die ook in de database voorkomen, en een "grijze" lijst met woorden die er niet in staan. Naar die eerste lijst hoeven we niet meer te kijken, die woorden zijn immers goed! De "grijze" lijst met zullen we moeten schiften in (1) foute woorden, (2) goede basiswoorden (die niet in de keurmerkdatabase voorkomen, maar wel goed gespeld zijn en gangbaar genoeg voor een spellingwoordenlijst), en (3) goede flexievormen. De foute woorden worden verwijderd of verbeterd, de tweede groep wordt toegevoegd aan de te certificeren woordenlijst, en de derde groep zal na certificatie weer aan de woordenlijst worden toegevoegd. De spellingcontrole moet immers niet alleen de basiswoorden maar ook afgeleide woorden kunnen herkennen.
    Deze schifting zal grotendeels handmatig moeten gebeuren, en hiervoor zal de inzet van vrijwilligers worden gevraagd.
  • De NTU heeft een overzicht van trefwoorden met gewijzigde spelling (MS Word-formaat) gepubliceerd. Het verwerken van deze wijzigingen in de spellingwoordenlijst van OpenTaal is grotendeels voorbereid, hierover binnenkort meer.
  • Verder zou de woordenlijst kunnen worden nagelopen om gewijzigde spellingregels in woorden, die niet ook in het Groene Boekje voorkomen, toe te passen. Deze stap is nog niet uitgewerkt.
  • Omdat het niet bekend is of we binnen afzienbare tijd nóg een keer gebruik kunnen maken van het aanbod van de NTU, willen we de woordenlijst zover mogelijk verbeteren en uitbreiden, bijvoorbeeld door het "oogsten" van woorden uit het internet (zoals online krantenartikelen) of uit verzamelingen documenten die in electronische vorm beschikbaar zijn. Hier wordt al aan gewerkt! Het voorlopige resultaat is een lijst van zo'n 19000 nieuwe woorden, waarvan 2700 in het Groene Boekje staan; van de rest moet nog beoordeeld worden of ze in de spellingwoordenlijst van OpenTaal thuishoren. Dit zal een vrijwilligerstaak worden, en ook van deze woorden zal moeten worden bepaald of ze basiswoord of flexievorm zijn.

Voor de praktische invulling zal de woordenlijst in een database worden ingevoerd. Door middel van PHP-scripts zullen vrijwilligers door het invullen van velden op een HTML-pagina kunnen aangeven of een woord juist gespeld is, of het gangbaar genoeg is om in de woordenlijst thuis te horen, en of het een basiswoord of flexievorm is. Door een geschikte vormgeving van de pagina's en toegang tot de nodige achtergrondinformatie moet het mogelijk zijn om met een minimaal inzicht in de Nederlandse grammatica deel te nemen aan deze taak.

Binnen afzienbare tijd hopen we een eerste opzet van dit systeem online te hebben voor evaluatie.