Opentaal.org

  • Vergroot lettergrootte
  • Standaard lettergrootte
  • Verklein lettergrootte
Home Lopende zaken
Lopende zaken

Wijzigingen spellingcontrole

Meld hieronder verbetervoorstellen voor de spellingcontrole.
Geef hierbij s.v.p. uw e-mailadres op. Dat adres wordt nergens op de site getoond, maar kan door OpenTaal worden gebruikt om in contact te treden om toelichting te vragen.
Beschrijf zo compact mogelijk wat er naar uw mening verbeterd moet worden.

Laatst aangepast op woensdag 02 juni 2010 11:15
 

Voortgang oogsten

Op dit moment wordt door de gezamenlijk oogstroutines het volgende bereikt:

Harvester telt zo'n 1000 woorden per dag

Harvester en distributedHarvester melden samen 1500 nieuwe te oogsten pagina's en documenten per dag.

DistributedHarvester oogst 110.000 documenten per dag, wat 750.000 nieuwe zinnen per dag oplevert.

Hiervan worden er zo'n 250.000 per dag omgezet in zinvolle voorbeeldzinnen.

Al met al indrukwekkende getallen.

En toch, ondanks nadrukkelijk zoeken met Harvester, hebben we voor sommige woorden in onze lijst nog geen enkel voorbeeld gevonden. Dat betekent dat die woorden wel erg zeldzaam ziijn, mogelijk gelegenheidswoorden.

 

De tussen-s

De tussen-s in het Nederlands is een beetje een mysterie. Sommige woorden krijgen er altijd een , sommige nooit. Vreemd genoeg zelfs als het om dezelfde grensklanken gaat.

Toch is er ook regelmaat:

  • na een woord dat al een s heeft, komt nooit een tussen-s (regel van de leidraad van de Taalunie). fiets+test, geen fiets+s+test)
  • na een voorzetsel komt (bijna) nooit een tussen-s (af+stellen, niet af+s+stellen)
  • na een werkwoordstam komt nooit een tussen-s (loop+test, niet loop+s+test)
  • na -heid altijd een tussen-s
  • na -eit komt altijd een tussen-s
  • na -ing komt meestal een s als het gaat om een afleiding van een werkwoord, behalve bij belasting en een aantal andere uitzonderingen, waaronder de Engelse werkwoorden. (Maar ook bij belasting zijn er uitzonderingen die woordenlijst.org gehaald hebben.)

tenzij:

  • het einddeel begint met: schap, en schap de betekenis heeft van rol, functie
  • meer?

Met een analyse van de totale woordenschat probeer in nog meer grip te krijgen op deze materie. Dat is handig voor het beoordelen van woorden en het maken van correcte afbrekingen.

Na de analyse publiceren we de resultaten.

Laatst aangepast op maandag 30 november 2009 14:47
 

Op naar betere afbreekregels (update 29-11)

In de sessie 'Taal en Tools' van 31 oktober hebben we geleerd hoe we het beste afbreekpatronen voor het Nederlands kunnen maken.

Dat houdt in dat we:

  • afbreek=patronen maken op woord=niveau
  • Deze patronen worden waarschijnlijk handmatig. test=woord=niveau wordt dan: test=woord, woord=, niveau=, tenminste, als die patronen ook daadwerkelijk 100% scoren.

Daarna moeten we nog:

  • deze patronen omzetten naar OOo-formaat. Dit is dan meteen bruikbaar.
  • afbreekpatronen maken voor de regelmatig afbrekende samenstellende woor=den (ook in maximaal 7 lagen, maar dan voor 80.000 woorden)
  • deze omzetten naar OOo-formaat
  • de speciale codering hieraan toevoegen om geëerd bij afbreken om te zetten in ge=eerd
  • dan pas de woorden die eindigen op aatje, eetje, ootje, uutje, ietje handmatig coderen, om taxietje te laten afbreken tot taxi-tje en rietje tot riet-je en spietje tot spie-tje.

Door al die stukken te combineren hebben we pas een volledig werkende set afbreekpatronen.

Woordgrenzen

Op dit moment werken we aan het bepalen van de woordgrenzen. Om dat eenduidig te doen is nog lastig, (zie de stukjes over de tussen-s).

Woorden die soms met en soms zonder tussen-s voorkomen, zijn dus lastig. Maar er is wel een analyse te doen op de woordenschat dat als er een s is, wat dan gegarandeerd als begin van een nieuwe woord kan worden gezien.

Bijvoorbeeld s=s, s=b, s=ge (en nog 1300 andere grenzen). Dat helpt al een heel eind.

Hiervoor is een stukje software gemaakt wat de met de hand ingevoerde woordgrenzen analyseert.

Hieronder de analyse van bio-diversiteits-verdrag. Je ziet dat alle woordgrenzen rechts, links en in het midden afzonderllijk worden beoordeeld of correctheid over alle opgehakte woorden, en dan zo veel mogelijk ingekort en op andere woorden toegepast om die ook weer op te hakken.

 

patroon [bio#] is perfect.
verkort perfect patroon;bio#
toegepast op :0

PATROON bio#diversiteits, AANTAL 2
perfect patroon:bio#diversiteits
patroon [bio#diversiteits] is perfect.
....
patroon [io#d] is perfect.
verkort perfect patroon;io#d
toegepast op :0

PATROON #diversiteits, AANTAL 2
perfect patroon:#diversiteits
patroon [#diversiteits] is perfect.
patroon [#diversiteit] is perfect.
..

patroon [#div] is perfect.
verkort perfect patroon;#div
toegepast op :0

PATROON diversiteits#, AANTAL 3
perfect patroon:diversiteits#
patroon [diversiteits#] is perfect.

patroon [siteits#] is perfect.
verkort perfect patroon;siteits#
toegepast op :0

PATROON diversiteits#verdrag, AANTAL 2
perfect patroon:diversiteits#verdrag
patroon [diversiteits#verdrag] is perfect.
patroon [diversiteits#verdra] is perfect.

patroon [ts#v] is perfect.
verkort perfect patroon;ts#v
toegepast op :0

PATROON #verdrag, AANTAL 5
perfect patroon:#verdrag
patroon [#verdrag] is perfect.
verkort perfect patroon;#verdrag
toegepast op :0

Laatst aangepast op zaterdag 05 december 2009 08:20
 

Recht op Taal

Dit concept, in OpenDocument en in HTML, geeft een overzicht van de auteursrechtelijke aspecten van de OpenTaal woordenlijsten. Het is opgesteld door Bart Knubben. Commentaar, op de mailinglist, is welkom!

 


Banner

Zoeken

Webopentaal.org