Documentatie
24-01-2006: Nieuwe Oogst
Het gaat om een lijst met woorden (excel formaat, ook te
openen met OpenOffice.org) die uit de publiek toegankelijke onderdelen van de websites
van de kranten Trouw, Volkskrant en De Standaard zijn geoogst. Hiervoor heeft Ruud Baars een
soort webspider geprogrammeerd. Dit doorzoekt de websites, vergelijkt de woorden met onze woordenlijst,
controleert ze aan de hand van www.woordenlijst.org, en probeert met behulp van de Nederlandstalige
zoeksite Vindex vast te stellen of het een gangbaar woord is.
Uitleg: in principe zijn alleen woorden die nog niet in onze woordenlijst voorkomen opgenomen.
In de tweede kolom is aangegeven of het woord in het Groene Boekje voorkomt
en wel als een grondwoord (G) of een flexievorm (F).
In de derde kolom staat het aantal hits dat de Nederlandse zoeksite Vindex op het woord geeft, of -1
indien deze score niet beschikbaar is.
Opmerkingen: - bij de woorden waarvan is aangegeven "nwe oogst" is kennelijk niet gecontroleerd
tegen onze woordenlijst, veel ervan komen toch daarin voor.
- Als je het bestand in OpenOffice.org opent zie je dat sommige andere woorden ook door de spellingcontrole
worden goedgekeurd. Het gaat hier om woorden met een streepje of in allemaal hoofdletters. Voor dat programma
zouden ze dus niet hoeven worden toegevoegd, maar we zullen dat wel doen omdat de woordenlijst niet een specifieke
implementatie van de spellingcontrole moet veronderstellen.
Uit deze woordenlijst zullen de geschikte woorden moeten worden geselecteerd.
Discussie over
de beste manier om dat te doen zal plaatsvinden op de mailinglist. Jullie zijn
welkom om je commentaar erop te geven!
22-01-2006: Recht op Taal
Dit concept, in OpenDocument
en in HTML,
geeft een overzicht van de auteursrechtelijke aspecten van de OpenTaal woordenlijsten. Het is
opgesteld door Bart Knubben. Commentaar, op de
mailinglist, is welkom!
27-12-2005: Retrograde woordenlijst
Deze retrograde woordenlijst is de ongecomprimeerde spellingwoordenlijst van NTG/OOo
van 17 juni 2005, "omgekeerd" alfabetisch gesorteerd, d.w.z. in volgorde vanaf de eindletter.
Je kunt er bijvoorbeeld een indruk door krijgen hoe betrouwbaar de uitgang -jes aangeeft of een woord
een meervoudig verkleinwoord is (warmpjes en beidjes zijn dat bijvoorbeeld niet).
26-12-2005: Woordenlijst filteren
(update 24-1-2006: Dit document is achterhaald) De NTU wil graag dat we in de ter certificatie aangeboden woordenlijst alleen basisvormen van woorden opnemen, geen "flexievormen", omdat die niet in hun database zitten en dus veel extra werk opleveren.
In de beschikbare woordenlijst staan alle vormen van de woorden echter door elkaar. Mogelijk kunnen de flexievormen
er grotendeels door middel van een computerprogramma worden uitgefilterd. Ter discussie is hier een
voorstel (openen in OpenOffice.org 1.1.5 of 2.0).
Commentaar kan worden geleverd via de discussie-mailinglist.
|