Opentaal.org

  • Vergroot lettergrootte
  • Standaard lettergrootte
  • Verklein lettergrootte
Home Lopende zaken
Lopende zaken

Voortgang oogsten

Op dit moment wordt door de gezamenlijk oogstroutines het volgende bereikt:

Harvester telt zo'n 1000 woorden per dag

Harvester en distributedHarvester melden samen 1500 nieuwe te oogsten pagina's en documenten per dag.

DistributedHarvester oogst 110.000 documenten per dag, wat 750.000 nieuwe zinnen per dag oplevert.

Hiervan worden er zo'n 250.000 per dag omgezet in zinvolle voorbeeldzinnen.

Al met al indrukwekkende getallen.

En toch, ondanks nadrukkelijk zoeken met Harvester, hebben we voor sommige woorden in onze lijst nog geen enkel voorbeeld gevonden. Dat betekent dat die woorden wel erg zeldzaam ziijn, mogelijk gelegenheidswoorden.

 

De tussen-s

De tussen-s in het Nederlands is een beetje een mysterie. Sommige woorden krijgen er altijd een , sommige nooit. Vreemd genoeg zelfs als het om dezelfde grensklanken gaat.

Toch is er ook regelmaat:

  • na een woord dat al een s heeft, komt nooit een tussen-s (regel van de leidraad van de Taalunie). fiets+test, geen fiets+s+test)
  • na een voorzetsel komt (bijna) nooit een tussen-s (af+stellen, niet af+s+stellen)
  • na een werkwoordstam komt nooit een tussen-s (loop+test, niet loop+s+test)
  • na -heid altijd een tussen-s
  • na -eit komt altijd een tussen-s
  • na -ing komt meestal een s als het gaat om een afleiding van een werkwoord, behalve bij belasting en een aantal andere uitzonderingen, waaronder de Engelse werkwoorden. (Maar ook bij belasting zijn er uitzonderingen die woordenlijst.org gehaald hebben.)

tenzij:

  • het einddeel begint met: schap, en schap de betekenis heeft van rol, functie
  • meer?

Met een analyse van de totale woordenschat probeer in nog meer grip te krijgen op deze materie. Dat is handig voor het beoordelen van woorden en het maken van correcte afbrekingen.

Na de analyse publiceren we de resultaten.

Laatst aangepast op maandag, 30 november 2009 14:47
 

Op naar betere afbreekregels (update 29-11)

In de sessie 'Taal en Tools' van 31 oktober hebben we geleerd hoe we het beste afbreekpatronen voor het Nederlands kunnen maken.

Dat houdt in dat we:

  • afbreek=patronen maken op woord=niveau
  • Deze patronen worden waarschijnlijk handmatig. test=woord=niveau wordt dan: test=woord, woord=, niveau=, tenminste, als die patronen ook daadwerkelijk 100% scoren.

Daarna moeten we nog:

  • deze patronen omzetten naar OOo-formaat. Dit is dan meteen bruikbaar.
  • afbreekpatronen maken voor de regelmatig afbrekende samenstellende woor=den (ook in maximaal 7 lagen, maar dan voor 80.000 woorden)
  • deze omzetten naar OOo-formaat
  • de speciale codering hieraan toevoegen om geëerd bij afbreken om te zetten in ge=eerd
  • dan pas de woorden die eindigen op aatje, eetje, ootje, uutje, ietje handmatig coderen, om taxietje te laten afbreken tot taxi-tje en rietje tot riet-je en spietje tot spie-tje.

Door al die stukken te combineren hebben we pas een volledig werkende set afbreekpatronen.

Woordgrenzen

Op dit moment werken we aan het bepalen van de woordgrenzen. Om dat eenduidig te doen is nog lastig, (zie de stukjes over de tussen-s).

Woorden die soms met en soms zonder tussen-s voorkomen, zijn dus lastig. Maar er is wel een analyse te doen op de woordenschat dat als er een s is, wat dan gegarandeerd als begin van een nieuwe woord kan worden gezien.

Bijvoorbeeld s=s, s=b, s=ge (en nog 1300 andere grenzen). Dat helpt al een heel eind.

Hiervoor is een stukje software gemaakt wat de met de hand ingevoerde woordgrenzen analyseert.

Hieronder de analyse van bio-diversiteits-verdrag. Je ziet dat alle woordgrenzen rechts, links en in het midden afzonderllijk worden beoordeeld of correctheid over alle opgehakte woorden, en dan zo veel mogelijk ingekort en op andere woorden toegepast om die ook weer op te hakken.

 

patroon [bio#] is perfect.
verkort perfect patroon;bio#
toegepast op :0

PATROON bio#diversiteits, AANTAL 2
perfect patroon:bio#diversiteits
patroon [bio#diversiteits] is perfect.
....
patroon [io#d] is perfect.
verkort perfect patroon;io#d
toegepast op :0

PATROON #diversiteits, AANTAL 2
perfect patroon:#diversiteits
patroon [#diversiteits] is perfect.
patroon [#diversiteit] is perfect.
..

patroon [#div] is perfect.
verkort perfect patroon;#div
toegepast op :0

PATROON diversiteits#, AANTAL 3
perfect patroon:diversiteits#
patroon [diversiteits#] is perfect.

patroon [siteits#] is perfect.
verkort perfect patroon;siteits#
toegepast op :0

PATROON diversiteits#verdrag, AANTAL 2
perfect patroon:diversiteits#verdrag
patroon [diversiteits#verdrag] is perfect.
patroon [diversiteits#verdra] is perfect.

patroon [ts#v] is perfect.
verkort perfect patroon;ts#v
toegepast op :0

PATROON #verdrag, AANTAL 5
perfect patroon:#verdrag
patroon [#verdrag] is perfect.
verkort perfect patroon;#verdrag
toegepast op :0

Laatst aangepast op zaterdag, 05 december 2009 08:20
 

Werken aan woordenlijst 2.0 (update 12 jan 2010)

Voor woordenlijst versie 2.0 willen we de volgende zaken bereiken:

  • een flinke uitbreiding van het aantal basiswoorden, en de daarbij horende flexievormen
  • opnemen van de meest voorkomende familienamen van Nederland
  • het herkennen van adhocsamenstellingen, zodat veel minder woorden onterecht een rode kringel krijgen.

Hiervoor moet flink wat werk worden verzet. Zo wordt al geëxperimenteerd met de samenstellingen vanaf 2007, en is het nog steeds niet perfect. Maar nu zijn we er bijna.

De keuring is een gigantisch werk voor de taalkundigen van de Taalunie. Daarom hebben we in onderling overleg besloten om de meest voorkomende woorden eerst te laten keuren.

12-1-2010: De keuringsresultaten zijn volledig binnen. Iets meer dan 9000 woorden met een opmerking, waarvan een groot deel de vaststelling dat het een zinvolle samenstelling is. Maar ook wat bekende fouten. Nu beoordeelt de INL de aangedragen woorden; daarna kunne we de 2e slag doen.

7-11-2009: De verzamelde gegevens staan inmiddels klaar voor de keuring.

15-11-2009 Eigennamen en afleidingen ervan kunnen buiten de keuring blijven en zijn dus uit de lijsten gehaald.

20-11-2009 De eerste lijst met 20.000 woorden is aangeleverd aan het INL

1-12-2009 Resultaten voor 5000 teruggekregen. Vragen gesteld over de ontbrekende 15000 en de juiste interpretatie.

Ergens in het eerste kwartaal van 2010 hopen we klaar zijn hiermee.

Laatst aangepast op dinsdag, 12 januari 2010 15:11
 

Recht op Taal

Dit concept, in OpenDocument en in HTML, geeft een overzicht van de auteursrechtelijke aspecten van de OpenTaal woordenlijsten. Het is opgesteld door Bart Knubben. Commentaar, op de mailinglist, is welkom!

 


Banner

Zoeken

Webopentaal.org