Afbreekpatronen

Softwarepakketten kunnen in lopende teksten woorden automatisch afbreken om de beschikbare ruimte maximaal te benutten.

In het algemeen kan een woord worden afgebroken waar een nieuwe lettergreep begint, bijvoorbeeld boom-pje, maar bij samenstellingen heeft het de voorkeur om af te breken waar het volgende woord begint, bijvoorbeeld trein-wagon.

Het afbreken van woorden is niet triviaal omdat bepaalde woorden afhankelijk van hun betekenis anders worden afgebroken. Voorbeelden hiervan zijn woorden met meerdere betekenissen zoals balletje: een kleine bal wordt balle-tje , maar een klein ballet wordt ballet-je; valkuil, een uilensoort, wordt valk-uil, maar een kuil om in te vallen wordt val-kuil.

Ook kan de schrijfwijze van een woord veranderen als het wel of niet wordt afgebroken. Voorbeelden hiervan zijn omaatje dat wordt oma-tje en baby'tje wordt baby-tje. Diakritische tekens kunnen ook verdwijnen zoals in druïde met dru-ide, maar niet bij druï-de, of juist terugkomen bij cafeetje met café-tje.

Dan zijn er ook nog woorden met een spatie of koppelteken die op die plek (liever) niet afgebroken mogen worden. Voorbeelden hiervan zijn 's‑Hertogenbosch, 's avonds en WO I. Een niet-brekende spatie wordt ook gebruikt in namen met voorletters zoals J. Jansen.

Afijn, zo zijn er heel wat speciale gevallen. OpenTaal levert zogenaamde afbreekpatronen zodat softwarepakketten automatisch woorden kunnen afbreken. Voorbeelden hiervan zijn het officepakket LibreOffice en de webbrowers Firefox en Chrome/Chromium. Deze gebruiken een softwarebibliotheek genaamd libhyphen die op haar beurt onze afbreekpatronen gebruikt. Ondersteuning voor het Nederlands is vaak direct beschikbaar of het is eenvoudig te installeren vanuit het softwarepakket dat je gebruikt.

Het opmaakpakket LaTeX en aanverwanten gebruiken een eigen softwarebibliotheek voor afbreken. Deze heet tex-hyphen en wordt onderhouden door hyphenation.org. Onze afbreekpatronen worden in eerste instantie voor dit formaat aangeleverd en door ons geconverteerd ook in het formaat voor libhyphen.

Een interessant weetje is dat de spellingcontrole door software wordt gedaan op de onafgebroken versie van een woord. Verder zijn in de afgelopen decennia ook wat spellingswijzigingen geweest. Daardoor ondersteunen onze afbreekpatronen woorden in een oudere en hedendaagse spelling.

In de toekomst willen we een slimmere manier van afbreken ondersteunen. Hier hebben we een formaat voor gedefinieerd. Mocht je interesse hebben, zie dit project op GitHub.

Voor algemene vragen over afbreken, neem contact met ons op. Voor een specifieke vraag, maak een issue aan op GitHub waar we de afbreekpatronen publiceren.