Woorden zoeken met Harvester

Het doel van de Harvester is woorden zoeken

Om goede voorbeelden te kunnen vinden bij de meer zeldzame woorden is het essentieel dat er flink wat exemplaren van Harvester draaien.

Elk woord dat wordt gezocht door Harvester, levert heel wat pagina's op, waarop het woord te vinden zou moeten zijn; die worden dan door het andere oogstprogramma opgehaald, bewerkt, en de gevonden voorbeelden toegevoegd aan onze voorbeeldenverzameling. Het is nodig om van elk woord meerdere voorbeelden te hebben, om goed in te kunnen schatten of het correct is, of niet, en wat voor soort woord het is. Dat aantal is momenteel echt te laag.

Installeren van de Harvester

Neem 5 minuten de tijd om een klein programmaatje te installeren. Het programmaatje heeft bijna geen systeembelasting en het helpt ons project enorm.

  1. Download de Harvester
  2. Pak de zip uit
  3. Open het bestand harvester.jar
    • Om dit programmaatje te kunnen draaien heb je een Java-runtime nodig, bijvoorbeeld die van Sun. Linuxgebruikers kunnen ook openjdk gebruiken.

De Harvester automatisch opstarten wanneer je de computer aanzet

Onder windows:

Plaats een snelkoppeling naar het bestand Harvester.jar in de map "Opstarten" in het windows start menu.

Onder Ubuntu/Linux:

  1. Download de Zip-file
  2. Pak deze uit in een map (bijv. je home dir)
  3. Onder "Systeem > Voorkeuren > Opstart-toepassingen" klik je op "Toevoegen"
  4. Geef een naam in (bijv. "OpenTaal Harvester")
  5. Voeg "Harvester.jar" toe door naar dit bestand te bladeren. In het opdrachtveld verschijnt de bestandslocatie.
  6. In het opdrachtveld voeg je voor de bestandslocatie nog "java -jar" toe
  7. Bij mij staat in het opdrachtveld nu "java -jar /home/baknu/Harvester/Harvester.jar" (eventueel kan je nog parameters zoals machinenaam en gebruikersnaam toevoegen, zoals staat beschreven in readme.txt)
  8. Klik op "Toevoegen" en klaar ben je. De volgende keer dat je je systeem opstart zal Harvester automatisch starten.

Woorddetails

Hieronder kunt u een woord opgeven waarvan u de details in de OpenTaal-database wilt zien. Het woord is hoofdlettergevoelig.

Suggesties

Meld hieronder verbetervoorstellen.
Kies hierbij het betreffende onderdeel en geef uw e-mailadres op. Dat adres wordt nergens op de site getoond, maar kan door OpenTaal worden gebruikt om in contact te treden om toelichting te vragen.
Beschrijf zo compact mogelijk wat er naar uw mening verbeterd moet worden. Staat uw wens al in de lijst, gebruik dan de button 'Mee eens' om uw instemming te betuigen.

Zinnen oogsten

Oogsten

Het beschikbaar stellen van taal-elementen betekent ook dat je ze ergens moet verzamelen. Dat verzamelen noemen we oogsten.

distributedHarvester

Met deze routine haal je echt de pagina's op waarvan de internetlocaties zijn gevonden door Harvester. Dit is dus pas echt het echte oogstwerk. DistributedHarvester werkt overigens alleen op Linux, vanwege de tools.

Wat moet je doen?

Start een terminalvenster en ga naar een map waarin je het wilt installeren.

Doe dan:

Ubuntu: sudo apt-get install php5-cli php5-curl
Suse  : sudo zypper install php5-mbstring php5-curl
Fedora: sudo yum install php-mbstring 
mkdir distributedHarvester
cd distributedHarvester/
wget http://data.opentaal.org/opentaalbank/distributedHarvester/currentVersion.zip
unzip currentVersion.zip
./runLinux.sh

start het oogsten met

./runLinux.sh

Na het starten is er in de map een bijdragen.html die je brengt bij de pagina waarop te zien is hoeveel je al hebt bijgedragen.

Als je wilt, kun je zo meerdere mappen maken en in elke map het oogsten draaien.

Spellingcontrole

Dit is het basisproject van OpenTaal. Na het aanpassen van de bestaande woordenlijst en spellingcontrole aan de normen van 2005 en het verkrijgen van het keurmerk van de Taalunie kan gesteld worden dat het project een succes is.

Dat blijkt dat ook uit de opname van onze spellingcontrole is vrijwel alle grote opensourceproducten.

Met versie 1.10 van de woordenlijst is deze uitgebreid met nog eens een flinke hoeveelheid woorden. Maar daar stopt het niet mee.

Voor weer een nieuwe versie wordt alweer een gigantische voorraad woorden aangeboden ter keuring. Dat zal dan vooral voor de taalgebruikers met een uitgebreidere woordenschat een hele verbetering zijn.

 

Lees meer: Spellingcontrole

Woorden oogsten

De lijst woorden die we hebben is de basis voor het verder oogsten. We voeren de woorden aan een zoekmachine met de applicatie 'Harvester', die dan de exacte vermeldingen van het woord bekijkt (en dus verschil maakt tussen 'Woord' en 'woord') en de adressen va de documenten waarin die woorden voorkomen verzamelt en doorgeeft aan de database, samen met de telgegevens.

Een andere routine haalt dan de adressen van de documenten weer op, halt de documenten zelf op, vertaalt ze helemaal in ASCII-formaat, bepaalt wat goede zinnen zijn, en geeft deze weer door aan de database.

Zo bevat de server miljoenen unieke zinnen. Uit deze zinnen wordt voor elk woord een minimaal aantal voorbeelden verzameld.

Harvester downloaden en draaien is een eenvoudige manier om bij te dragen.

Grammaticacontrole

De grammaticacontrole voor de Nederlandse taal is sterk in ontwikkeling.

De basis voor deze controle is de bestaande tool 'languagetool', zodat niet het wiel volledig opnieuw uitgevonden hoeft te worden qua technologie. Daniel Naber heeft met deze tool al een heel goede basis gelegd voor grammaticacontrole die zowel binnen OOO als door welke applicatie dan ook gebruikt kan worden. Door het in java te bouwen is ook de platformonafhankelijkheid door hem gegarandeerd. Complimenten !

Languagetool kan gemakkelijk uitgebreid worden met andere talen. Dus ook met Nederlands. Dat is precies wat dit project aan het doen is. Behalve enige java-programmering voor het invoegen van de taal Nederlands en wat specifieke regels, moet vooral aandacht besteed worden aan het vinden van de meest voorkomende grammaticafouten en het bedenken van slimme regels hiervoor, die (bijna) alleen een waarschuwing geven als dat terecht is. Door de complexiteit van de taal is dat niet eenvoudig.

Gelukkig ondersteunt languagetool ook geavanceerde mogelijkheden als 'tagging' van woorden, waardoor de woordsoort bekend is. Hiermee zijn geavanceerde regels te maken.
We hebben een set 'getagde' woorden gedoneerd gekregen vanuit de RijkUniversiteit Groningen, wat meer algemene regels mogelijk maakt.

 

Installatie Grammaticacontrole

  1. Download Languagetool
  2. Sla de OXT-file op, en voeg hem met de functie voor beheer van extensies toe.

Bekende verbeterpunten in LanguageTool

Meer regels

Meehelpen kan al door de grammaticacontrole te gebruiken en aan de mailing list te melden welke taalgebreken deze (nog) niet meldt.

Voor de fanatiekelingen onder jullie de uitdaging om ook zelf regels uit te pluizen, of de bestaande te verbeteren.

Meld je dan aan op de mailing list; dan help ik je op weg.

Woordsoorten en - relaties

Om de grammaticacontrole te ondersteunen, maar ook om flexie- en basisvormen te onderscheiden worden de relaties tussen woorden vastgelegd en woorden getypeerd. Dat is belangrijk precisiewerk, met veel handwerk..