| Project |
|
Intro Nieuws Documentatie |
| Downloads |
|
Spellingbestanden Software Bestanden |
| Meedoen |
|
Projecten Woorddetails Woorden bijdragen Synoniemen Grammatica Statistiek Suggesties? Mailinglists |
| Overig |
|
Licentie Wie zijn wij? English Zoeken Links |
Oogsten - de achtergrondenHet beschikbaar stellen van taal-elementen betekent ook dat je ze ergens moet verzamelen. Dat verzamelen noemen we oogsten.Momenteel oogsten we van een aantal kranten en overheidssites. De selectie is gemaakt door ons idee van de kwaliteit van het taalgebruik van de betreffende sites. We willen namelijk wel redelijk betrouwbare invoer verzamelen. Het oogsten was initieel gericht op het oogsten van woorden (gericht
op de woordenlijsten). Later is daar het oogsten van zinnen bijgekomen
ten behoeve van het opbouwen van kennis voor de grammaticacontrole. Omdat we vooral 'degelijke' sites oogsten, heeft dit wel een vertekening tot gevolg van de frequentiegegevens. Die geven de waarden aan zoals die voor ambtenaren en nieuws gelden. Meer diverse goed geredigeerde bronnen zijn altijd welkom. Bijvoorbeeld taalkundig kwalitatief hoogstande blogs. Wie weet er goede ? Omdat gewone woorden niet altijd worden googst, zijn aanvullend alle combinatiewoorden tussen gangbare begin- en eindwoorden gegenereerd. Het gebruik van deze gegenereerde woorden wordt bekeken. Vaak voorkomende woorden worden aan de oogst toegevoegd. Hoe?De server die ook deze site huisvest, start om de paar minuten een programma op, dat veel acties uitvoert:
Een schat aan ruwe informatie is het resultaat, klaar voor verdere bewerking. BewerkingWoordenHet bewerken van de geautomatiseerd bewerkte woorden is altijd handwerk. Daar zijn dus veel enthousiaste vrijwilligers voor nodig. Door elke keer weer een andere doorsnede te nemen van nieuwe woorden en deze handmatige tegen allerlei criteria te toetsen (soms met de online kwaliteitscontrole, soms offline met op de mailing list verstuurde lijsten) wordt de woordentabel steeds completer en beter.De certificering door de NTU helpt daarbij. Zowel hun akkoord als hun niet akkoord zijn zeer nuttige informatie. ZinnenOok de zinnen hebben controles nodig. Daarbij heeft het geen zin om op lange termijn alle zinnen te bewaren. Daarom wordt met behulp van 'part of speech tags' (woordtypen) geprobeerd de zinnen algemener te maken en greep te krijgen op de zinsbouw. Dit deelproject staat nog in de kinderschoenen. Gelukkig hebben we wel een vliegende start kunnen maken door de inbreng van de Rijksuniversiteit Groningen.Op de duur hopen we hiermee de grammaticacontrole te kunnen versterken. Technische achtergrondenDe server is een LAMP-server. Linux met Apache voor de site, MySql als database en PHP als programmeertaal.Alle oogst- en analysescripts zijn in PHP gebouwd. Alle gegevens staan in de database. De gegevens worden via php-scripts aangeboden aan de site. DetailsWoorden oogstenHet opdelen van een zin in woorden is al een uitdaging op zich. De html-tags helpen en de vraagteken en uitroepteken ook, maar er zijn zat uitdagingen. Denk eens aan de apostrof : die wordt gebruikt als 'aanhalingsteken', maar ook als onderdeel van een woord (bijvoorbeeld oma's, of nog erger: Kees' ). Daar komt dan nog bij dat 's morgens op zich twee woorden is (van des morgens) maar je liever toch als onderdeel van het volgende woord oogst.Een andere uitdaging zijn de afkortingen. Het is moeilijk, om te zien of een punt nu het einde van een zin aangeeft, van een afkorting, of ergens onderdeel van uitmaakt (getal of internetadres bijvoorbeeld). Met een aantal trucs, waaronder het tellen van het aantal punten in het woord, de verdeling ervan over het woord en meer zaken, wordt ingeschat of een nieuw geoogst woord mogelijk een afkorting zou kunnen zijn. Daarnaast wil je zo weinig mogelijk buitenlandse woorden oogsten. Dat bereiken we door een woord alleen te oogsten als nieuw woord, als het tussen twee woorden staat, die geen buitenlands woord kunnen zijn. Hierdoor gaat het oogsten wel een stuk langzamer (Het woord de komt bijvoorbeeld ook in het Frans voor), maar wel veel zuiverder. Als het woord eenmaal geoogst is, dan wordt de mate van voorkomen bepaald aan de hand van de resultaten van Harvester en aan de frequentietelling in onze eigen geoogste zinnen. Tellen van frequentie van gebruikBij het besluiten voor of tegen opname van een woord in de spellingcontrolelijst kan de mate van gebruik een rol spelen. Daarom wordt het gebruik van het woord in de zelf geoogste zinnen gemeten. Ook wordt een telling gedaan van het woord op Nederlandstalige NL- en BE-sites op internet met Harvester.Zinnen OogstenDe uitdaging om te bepalen waar een zin eindigt, zoals die bij het oogsten van woorden is geschetst, komt terug bij het opdelen van de tekst in zinnen. Omdat er van alles fout kan gaan bij het opsplitsen van zinnen, vindt er ook nog een nacontrole plaats op veel voorkomende fouten in zinnen. (Bijvoorbeeld spatie voor leesteken, spatie aan begin, einde niet compleet et cetera.) Handmatige nacontrole is bij zoveel zinnen echt een probleem.De zinnen worden opgeslagen inclusief de opdeling in woorden, met alle leestekens. Bijvoorbeeld: [Ik] [wil] [namelijk] [het] [volgende] [zeggen]. CombinatiewoordenIn het Nederlands worden vaak twee woorden gecombineerd tot één nieuwe. Soms worden dat weer veelgebruikte woorden, andere worden slechts bij gelegenheid bepaald en gebruikt.Carnaval+optocht wordt zo Carnavalsoptocht. Minister+president wordt minister-president. Door elk geoogst woord op te splitsen en het eerste en tweede deel te testen op correctheid worden 1 of meer mogelijke opbouwen van de woorden gevonden. Valkuil kan zo gesplitst worden in valk+uil en val+kuil. In dit geval zijn beide alternatieven geldig, soms is het maar 1. Soms is de gevonden combinatie onzin (jongleren is geen zinnige combinatie van jong+leren). Ook dit is grotendeels handwerk. Bij het opdelen wordt ook nog rekening gehouden met een deel van de complexe regels van de NTU voor het toepassen van het koppelteken. HarvesterHarvester is een java-applicatie die steeds een woord bij de server ophaalt, deze in een zoekopdracht verpakt naar een zoekmachine stuurt, en het aantal hits berekent.Uitdaging hierbij is dat de zoekmachine nogal 'coulant' is. Woorden met een koppelteken vindt het ook los. Onderscheid tussen hoofd- en kleine letters wordt niet gemaakt. Daarom telt WordsHarvester zelf hoe vaak het woord echt op de resultatenpagina voorkomt en corrigeert het resultaat daarvoor. Desnoods worden meerdere resultaatpagina's opgehaald om een nauwkeurige schatting te krijgen. Harvester downloaden en draaien is een eenvoudige manier om bij te dragen. |
|
Voor de juridische voorwaarden van OpenTaal, zie:http://www.opentaal.org/licentie.php |
