Taalenthousiastelingen, help mee!

Het aantal woorden dat wordt geoogst met de geautomatiseerde hulpmiddelen is erg groot. Gelukkig kunnen we woorden ook deels geautomatiseerd beoordelen.

MAAR... Uiteindelijk is het toch vaak handwerk.

Woorden beoordelen, woordsoorten aangeven, fouten aangeven. Het is allemaal mensenwerk. Maar wel mensenwerk dat met een half jaar of een jaar terug te vinden is in taalondersteuningsproducten die door miljoenen worden gebruikt.

Zonder dat edele handwerk krijgen we dat niet voor elkaar. OpenTaal is geen firma met werknemers, maar een community van onbetaalde taalenthousiasten. Mensen met gevoel voor taal en gedrevenheid om goede taalondersteuning in software te realiseren.

Ziet u dat belang ook? Uw hulp is hard nodig, dus help, al is het maar een paar minuten, mee.

Vindt u het nu te lastig? Doe dat een suggestie voor nieuwe, andere, of verbeterde functies.

Hoe meer zielen, des te meer vreugd.

Fout? Verbeteren!

Met het oogsten hebben we veel voorbeeldzinnen gekregen. Hieruit is een selectie gemaakt (ruim 1 miljoen) waarin zeker een fout of een onbekend woord staat. Door alle fouten te corrigeren (zowel fouten die 1 woord beslaan als fouten die meerdere woorden beslaan)  ontstaat een goed beeld van de meest gemaakte fouten. Wat weer zinvolle informatie is voor spelling- of grammaticacontrole.

Fouten van een enkel woord kun je corrigeren na het klikken op het woord; voor het corrigeren van fouten die meerdere woorden beslaan, kun je achtereenvolgens de linker en rechter grens markeren.

Toepassing van OpenTaal-gegevens voor maatschappelijk nut

Laurens Van Acker, masterstudent Industriële Wetenschappen Informatie aan de HoGent, werkt als thesisproject aan een hulpprogramma voor dove kinderen.
Het programma zal op Android - een besturingssysteem voor mobiele telefoontoestellen - gaan draaien en moet dove kinderen tussen 12 en 18 jaar gaan helpen met het begrijpen van moeilijke zinnen. Ze zullen de zinnen kunnen ingeven met behulp van het toetsenbord of door een selectie te maken op een webpagina, uit een sms-bericht of e-mail. Ook kunnen ze tekst ingeven via spraakherkenning of via een foto (OCR).
Bij die tekst worden dan plaatjes en filmpjes gezocht op publieke API's zoals Google Image Search, Flickr, Youtube, Vimeo die deze tekst proberen te verduidelijken.
De grammaticakennis van OpenTaal wordt gebruikt om de betekenis van de woorden op te zoeken. Zo kunnen de belangrijkste woorden uit een zin gehaald worden.

Je kunt contact opnemen met Laurens via http://laurens.tel.

Niet-commerciële maatschappelijk relevante toepassingen van taal kunnen altijd op steun van OpenTaal rekenen.


Hyphenation improvement, anyone?

Over the years, use of text processors for desktop publishing has increased. This also makes correct hyphenation more important in order to make nice right margins of colums.

Our Dutch hyphenation patterns are quite old however, and suffer of incorrectness.

Partly this is because Dutch has changed in 2005, but mostly because it has properties, which are not supported well by existing software.

The properties that make hyphenation life hard:

Dutch words can contain ' as a character : testauto's ; the 'is not supported by pattern generator, nor by hyphenation.

The same applies to the dash -; in Dutch it is not even a correct hyphenation character: bevestings=e-mail (= is the hyphenation) is correct, but bevestigings-e=mail is not.

Even a . can be a word character (though exceptional) griffie=nrs.

Dutch is a compounding language. Luckily, one of the latest extensions of hyphenation is some support of this phenomenon. It needs an extra check however, since it might leave words hyphenated in incorrect positions. This check might be for the parts to be valid compounding parts, or leave a known word/part after splitting.

Dutch compounding has a compounding addition: belasting and test combined could be belasting=test as well as belastings=test. Since the appearance of the s is quite free (depending on meaning if the first part of the compound) this makes correct pattern detection hard. My belief is that we need hyphenating positions only at the start of end parts (=test).

Furthermore, Dutch words might change when hyphenated (omaatje => oma=tje). Luckily, this is also supported nowadays. But the substrings.pl which makes patterns for OOo, might ruin thse patterns.

Though most of the phenomena of Dutch are supported by hyphenation, none are supported by the tools to generate and process patterns (Patgen, OOo pattern generation process, hyphenation tools).

So either we start a very elaborate process of manual pattern creation, or we have these tools improved.

Are there any other language maintainers with similar or the same problems, willing to contribute (to specifications, programming or money) improving the hyphenation tools?

Please contact Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..