Opentaal.org

  • Vergroot lettergrootte
  • Standaard lettergrootte
  • Verklein lettergrootte
Home Projecten Woorden oogsten

Woorden oogsten

De lijst woorden die we hebben is de basis voor het verder oogsten. We voeren de woorden aan een zoekmachine met de applicatie 'Harvester', die dan de exacte vermeldingen van het woord bekijkt (en dus verschil maakt tussen 'Woord' en 'woord') en de adressen va de documenten waarin die woorden voorkomen verzamelt en doorgeeft aan de database, samen met de telgegevens.

Een andere routine haalt dan de adressen van de documenten weer op, halt de documenten zelf op, vertaalt ze helemaal in ASCII-formaat, bepaalt wat goede zinnen zijn, en geeft deze weer door aan de database.

Zo bevat de server miljoenen unieke zinnen. Uit deze zinnen wordt voor elk woord een minimaal aantal voorbeelden verzameld.

Harvester downloaden en draaien is een eenvoudige manier om bij te dragen.



voeg deze pagina toe aan je favoriete social network
Laatst aangepast op dinsdag 29 september 2009 15:10  
Banner

Zoeken

Webopentaal.org