Voortgang oogsten

Op dit moment wordt door de gezamenlijk oogstroutines het volgende bereikt:

Harvester telt zo'n 1000 woorden per dag

Harvester en distributedHarvester melden samen 1500 nieuwe te oogsten pagina's en documenten per dag.

DistributedHarvester oogst 110.000 documenten per dag, wat 750.000 nieuwe zinnen per dag oplevert.

Hiervan worden er zo'n 250.000 per dag omgezet in zinvolle voorbeeldzinnen.

Al met al indrukwekkende getallen.

En toch, ondanks nadrukkelijk zoeken met Harvester, hebben we voor sommige woorden in onze lijst nog geen enkel voorbeeld gevonden. Dat betekent dat die woorden wel erg zeldzaam ziijn, mogelijk gelegenheidswoorden.

Op naar betere afbreekregels (update 29-11)

In de sessie 'Taal en Tools' van 31 oktober hebben we geleerd hoe we het beste afbreekpatronen voor het Nederlands kunnen maken.

Dat houdt in dat we:

  • afbreek=patronen maken op woord=niveau
  • Deze patronen worden waarschijnlijk handmatig. test=woord=niveau wordt dan: test=woord, woord=, niveau=, tenminste, als die patronen ook daadwerkelijk 100% scoren.

Daarna moeten we nog:

  • deze patronen omzetten naar OOo-formaat. Dit is dan meteen bruikbaar.
  • afbreekpatronen maken voor de regelmatig afbrekende samenstellende woor=den (ook in maximaal 7 lagen, maar dan voor 80.000 woorden)
  • deze omzetten naar OOo-formaat
  • de speciale codering hieraan toevoegen om geëerd bij afbreken om te zetten in ge=eerd
  • dan pas de woorden die eindigen op aatje, eetje, ootje, uutje, ietje handmatig coderen, om taxietje te laten afbreken tot taxi-tje en rietje tot riet-je en spietje tot spie-tje.

Door al die stukken te combineren hebben we pas een volledig werkende set afbreekpatronen.

Woordgrenzen

Op dit moment werken we aan het bepalen van de woordgrenzen. Om dat eenduidig te doen is nog lastig, (zie de stukjes over de tussen-s).

Woorden die soms met en soms zonder tussen-s voorkomen, zijn dus lastig. Maar er is wel een analyse te doen op de woordenschat dat als er een s is, wat dan gegarandeerd als begin van een nieuwe woord kan worden gezien.

Bijvoorbeeld s=s, s=b, s=ge (en nog 1300 andere grenzen). Dat helpt al een heel eind.

Hiervoor is een stukje software gemaakt wat de met de hand ingevoerde woordgrenzen analyseert.

Hieronder de analyse van bio-diversiteits-verdrag. Je ziet dat alle woordgrenzen rechts, links en in het midden afzonderllijk worden beoordeeld of correctheid over alle opgehakte woorden, en dan zo veel mogelijk ingekort en op andere woorden toegepast om die ook weer op te hakken.

 

patroon [bio#] is perfect.
verkort perfect patroon;bio#
toegepast op :0

PATROON bio#diversiteits, AANTAL 2
perfect patroon:bio#diversiteits
patroon [bio#diversiteits] is perfect.
....
patroon [io#d] is perfect.
verkort perfect patroon;io#d
toegepast op :0

PATROON #diversiteits, AANTAL 2
perfect patroon:#diversiteits
patroon [#diversiteits] is perfect.
patroon [#diversiteit] is perfect.
..

patroon [#div] is perfect.
verkort perfect patroon;#div
toegepast op :0

PATROON diversiteits#, AANTAL 3
perfect patroon:diversiteits#
patroon [diversiteits#] is perfect.

patroon [siteits#] is perfect.
verkort perfect patroon;siteits#
toegepast op :0

PATROON diversiteits#verdrag, AANTAL 2
perfect patroon:diversiteits#verdrag
patroon [diversiteits#verdrag] is perfect.
patroon [diversiteits#verdra] is perfect.

patroon [ts#v] is perfect.
verkort perfect patroon;ts#v
toegepast op :0

PATROON #verdrag, AANTAL 5
perfect patroon:#verdrag
patroon [#verdrag] is perfect.
verkort perfect patroon;#verdrag
toegepast op :0