Opentaal.org

  • Vergroot lettergrootte
  • Standaard lettergrootte
  • Verklein lettergrootte
Home Projecten Oogsten

Oogsten

Oogsten

Het beschikbaar stellen van taal-elementen betekent ook dat je ze ergens moet verzamelen. Dat verzamelen noemen we oogsten.

Momenteel oogsten we actief van een aantal kranten en overheidssites. Sites, waarvan we het beeld hebben dat ze aandacht besteden aan het taalgebruik.

Eerder gevonden woorden gebruiken we op (als dat nodig is) meer documenten te vinden met het woord er in.

Hoe?

Harvester is het programma veel gebruikers hebben draaien en woorden geeft aan zoekmachines en hier de documenten en pagina's voor terugkrijgt. Deze nieuwe te oogsten documenten worden op de server opgeslagen.

Help heel eenvoudig mee door ook Harvester te draaien. Het is een Java-programmaatje, dus geschikt voor elk platform.

De te oogsten pagina's worden opgehaald door een aantal Linuxmachines die een ander oogstprogramma draaien, namelijk distributedHarvester.

De verzamelde pagina's worden in zinnen gehakt, en samen met de informatie wat de oorsprong is, weer naar de server gestuurd.

De server plaatst de zinnen in een 'corpus', en haalt hier voorbeelden uit, die dan weer op onze sit e in woorddetails te raadplegen zijn.

 

distributedHarvester

Hiermee haal je echt de pagina's op en zet je ze om in tekst en zinnen.
Dit is pas echt het echte oogstwerk. Dit werkt overigens alleen op Linux, vanwege de tools.

Meedoen?

Start een terminalvenster en ga naar een directory waarin je het wilt installeren.

Doe dan (op Ubuntu, bij andere distributies apg-get door de installatieopdracht vervangen):

sudo apt-get install php5-cli
sudo apt-get install antiword
sudo apt-get install xpdf-reader
sudo apt-get install odt2txt
sudo apt-get install php5-curl
mkdir distributedHarvester
cd distributedHarvester/
wget http://data.opentaal.org/opentaalbank/distributedHarvester/currentVersion.zip
unzip currentVersion.zip

start het oogsten met

./runLinux

Als je wilt, kun je zo meerdere mappen maken en in elke map het oogsten draaien.



voeg deze pagina toe aan je favoriete socail network
Laatst aangepast op vrijdag 02 juli 2010 17:11  
Banner

Zoeken

Webopentaal.org