| Project |
|
Intro Nieuws Documentatie |
| Downloads |
|
Spellingbestanden Software Bestanden |
| Meedoen |
|
Projecten Woorddetails Woorden bijdragen Synoniemen Grammatica Statistiek Suggesties? Mailinglists |
| Overig |
|
Licentie Wie zijn wij? English Zoeken Links |
Project: afbrekenHet afbreken van woorden is nog niet zo eenvoudig als het lijkt. De stappen om tot goede afbrekingen te komen zijn: Tot nu toe wordt gebruik gemaakt van het afbreekpatronenbestand van TeX, uit 1996. Hoewel dat nog behoorlijk werkt, is het niet altijd correct en kan niet omgaan met veranderingen van het woord tijdens het afbreken. OOo kan dat (bijna) wel. (Nu nog niet, zie onderstaand voorbeeld.)
Om dat verschil te overbruggen en de afbreekregels te actualiseren wordt gewerkt aan het uitzoeken van de juiste afbrekingen van woorden. Dit door de afbrekingen van samengestelde woorden samen te stellen uit die van de deelwoorden en die van de deelwoorden handmatig te controleren of maken. Om optimaal de juiste afbreekposities van woorden weer te geven worden deze gecodeerd opgeslagen. Omdat die codering er nog niet was (voor zover bekend) is er een bedacht. De codering voor woordsamenstellingDe codering is als volgt gedefinieerd: Gelukkig hoeven we niet alle (oneindig) woorden van het Nederlands zo uit te
pluizen. Veel woorden zijn samengesteld uit kleinere, en je hoeft het dus alleen
voor de niet-samengestelde te doen.
Grenzen tussen woorddelen geven we aan met een #, met speciale variaties voor:
LastigSommige woorden zijn dubieus met afbreken. Aan het woord zelf kun je niet zien hoe het moet worden afgebroken. Denk aan bal=le=tje als het een kleine bal is, maar bal=let=je als het een
klein ballet is. De afbreekpatronen horen dus bij de woordbetekenis en schrijfwijze, en niet alleen bij de schrijfwijze. Hoewel... soms in in de samenstelling wel duidelijk(er) wat de betekenis is; een afdelingsuitje zal niet verwijzen naar een ui. KeuzesHoewel het afbreken netjes is beschreven in de leidraad van de NTU, hebben we toch zelf nog een paar keuzes moeten maken. 1) Letterwoorden, dus woorden die letter voor letter worden uitgesproken zoals bijvoorbeeld HTML breken we NIET af. 2) Verkortingen als VARA, die wel als woord worden uitgesproken, breken we wel af. 3) Alle verbindingsstreepjes tussen woorddelen (-) worden bij het afbreken vervangen door het afbreekteken. In de praktijk is dat vaak hetzelfde, maar dat hoeft voor een drukker niet zo te zijn. ImplementatieOmdat zoals eerder genoemd sommige woorden wel erg dubbelzinnig zijn in het afbreken, worden die dubbelzinnige afbreekposities weggelaten. Niet afbreken is beter dan fout afbreken. Bij het afbreekproduct zullen we een lijst meeleveren van woorden waarvan we weten dat ze door de techniek verkeerd worden afgebroken. TechniekEen afbreeklijst zonder uitzonderingen (zoals omaatje etc) kan relatief eenvoudig worden omgezet in een patroonbstand met Patgen van TeX. Met het afwerken van een aantal niveaus heb je dan een patroonfile. dan kunnen de gecodeerde uitzonderingen worden toegevoegd. Met routines, horend bij OOo, kun je daar dan weer een OOo-set van maken. Dat geheel hebben we geautomatiseerd. |
