Opentaal.org

  • Vergroot lettergrootte
  • Standaard lettergrootte
  • Verklein lettergrootte
Home Projecten
Projecten

Steun ons

Wellicht wist je het niet, maar OpenTaal is een groepje onbetaalde vrijwilligers.

Om deze vrijwilligers te ondersteunen als rechtspersoon is de Stichting OpenTaal opgericht. Zonder winstoogmerk dus. Alles wat we maken is gratis en voor niets.

Wanneer je blij bent met de producten van OpenTaal kunt je dat laten merken door bij te dragen.

Eventueel ook financieel. Met financiële bijdragen kunnen we nog meer dan nu, bijvoorbeeld wijzigingen in de software laten aanbrengen die specifiek voor het Nederlands zijn. Of meedoen aan internationale projecten.

Je kunt je bijdrage eventueel storten op rekening 15.62.32.782 van de Stichting OpenTaal.

Het bedrag laten we natuurlijk helemaal aan jou over. Hoe meer je het waard vindt, des te meer je stort. Er gaat per storting wel een bedrag van € 0,75 naar de bank voor de transactie.

Wanneer je er prijs op stelt als sponsor te worden genoemd, meld je dat dan bij de transactie?

We zullen regelmatig laten weten wat we met de sponsoring doen.

Werk je in een organisatie die wel wil helpen, maar waarbij financiële sponsoring onmogelijk of moeilijk is (bijvoorbeeld overheden), dan is wellicht sponsoring in natura iets voor je? Neem dan even contact op met info@opentaal.org.

Allemaal alvast bedankt namens alle gebruikers van onder meer (in alfabetische volgorde) Chrome, Firefox, Linux, OpenOffice.org, Thunderbird en vele ander producten en sites.

 


 

De sponsoring bestond tot nu toe uit:

December 2009: Donatie van de NLUUG om de stichtingskosten te dekken van de Stichting OpenTaal

November 2009: 4 oude servers gedoneerd gekregen.

Oktober 2009:

Donaties van de NLUUGG en individuen om het bezoek van de Hongaarse programmeur die Hunspell onderhoudt te financieren.

2006-2009: Geen sponsoring.

Laatst aangepast op vrijdag 30 april 2010 17:33
 

Woorden bijdragen

In onderstaand tekstvak kunt u met knippen en plakken uw eigen woorden aanbieden.

Deze woorden worden vervolgens tegen onze database gecontroleerd of ze nieuw zijn.
De nieuwe woorden krijgt u dan voor een visuele controle aangeboden. U dient deze woorden stuk voor stuk aan te vinken als ze goed genoeg zijn om aan de OpenTaal-woordenschat toe te voegen.
Dat is om eventuele typefouten te weren.

Woorden met hoofdletters, cijfers of leestekens worden geweerd.

Laatst aangepast op zondag 15 november 2009 13:28
 

Woorddetails

Hieronder kunt u een woord opgeven waarvan u de details in de OpenTaal-database wilt zien. Het woord is hoofdlettergevoelig.

Laatst aangepast op zondag 15 november 2009 13:26
 

Suggesties

Meld hieronder verbetervoorstellen.
Kies hierbij het betreffende onderdeel en geef uw e-mailadres op. Dat adres wordt nergens op de site getoond, maar kan door OpenTaal worden gebruikt om in contact te treden om toelichting te vragen.
Beschrijf zo compact mogelijk wat er naar uw mening verbeterd moet worden. Staat uw wens al in de lijst, gebruik dan de button 'Mee eens' om uw instemming te betuigen.

Laatst aangepast op zondag 15 november 2009 13:38
 

Oogsten

Oogsten

Het beschikbaar stellen van taal-elementen betekent ook dat je ze ergens moet verzamelen. Dat verzamelen noemen we oogsten.

Momenteel oogsten we actief van een aantal kranten en overheidssites. Sites, waarvan we het beeld hebben dat ze aandacht besteden aan het taalgebruik.

Eerder gevonden woorden gebruiken we op (als dat nodig is) meer documenten te vinden met het woord er in.

Hoe?

Harvester is het programma veel gebruikers hebben draaien en woorden geeft aan zoekmachines en hier de documenten en pagina's voor terugkrijgt. Deze nieuwe te oogsten documenten worden op de server opgeslagen.

Help heel eenvoudig mee door ook Harvester te draaien. Het is een Java-programmaatje, dus geschikt voor elk platform.

De te oogsten pagina's worden opgehaald door een aantal Linuxmachines die een ander oogstprogramma draaien, namelijk distributedHarvester.

De verzamelde pagina's worden in zinnen gehakt, en samen met de informatie wat de oorsprong is, weer naar de server gestuurd.

De server plaatst de zinnen in een 'corpus', en haalt hier voorbeelden uit, die dan weer op onze sit e in woorddetails te raadplegen zijn.

 

distributedHarvester

Hiermee haal je echt de pagina's op en zet je ze om in tekst en zinnen.
Dit is pas echt het echte oogstwerk. Dit werkt overigens alleen op Linux, vanwege de tools.

Meedoen?

Start een terminalvenster en ga naar een directory waarin je het wilt installeren.

Doe dan (op Ubuntu, bij andere distributies apg-get door de installatieopdracht vervangen):

sudo apt-get install php5-cli
sudo apt-get install antiword
sudo apt-get install xpdf-reader
sudo apt-get install odt2txt
sudo apt-get install php5-curl
mkdir distributedHarvester
cd distributedHarvester/
wget http://data.opentaal.org/opentaalbank/distributedHarvester/currentVersion.zip
unzip currentVersion.zip

start het oogsten met

./runLinux

Als je wilt, kun je zo meerdere mappen maken en in elke map het oogsten draaien.

Laatst aangepast op vrijdag 02 juli 2010 17:11
 

Spellingcontrole

Dit is het basisproject van OpenTaal. Na het aanpassen van de bestaande woordenlijst en spellingcontrole aan de normen van 2005 en het verkrijgen van het keurmerk van de Taalunie kan gesteld worden dat het project een succes is.

Dat blijkt dat ook uit de opname van onze spellingcontrole is vrijwel alle grote opensourceproducten.

Met versie 1.10 van de woordenlijst is deze uitgebreid met nog eens een flinke hoeveelheid woorden. Maar daar stopt het niet mee.

Voor weer een nieuwe versie wordt alweer een gigantische voorraad woorden aangeboden ter keuring. Dat zal dan vooral voor de taalgebruikers met een uitgebreidere woordenschat een hele verbetering zijn.

 

Laatst aangepast op woensdag 30 september 2009 13:50 Lees meer...
 

Woorden oogsten

De lijst woorden die we hebben is de basis voor het verder oogsten. We voeren de woorden aan een zoekmachine met de applicatie 'Harvester', die dan de exacte vermeldingen van het woord bekijkt (en dus verschil maakt tussen 'Woord' en 'woord') en de adressen va de documenten waarin die woorden voorkomen verzamelt en doorgeeft aan de database, samen met de telgegevens.

Een andere routine haalt dan de adressen van de documenten weer op, halt de documenten zelf op, vertaalt ze helemaal in ASCII-formaat, bepaalt wat goede zinnen zijn, en geeft deze weer door aan de database.

Zo bevat de server miljoenen unieke zinnen. Uit deze zinnen wordt voor elk woord een minimaal aantal voorbeelden verzameld.

Harvester downloaden en draaien is een eenvoudige manier om bij te dragen.

Laatst aangepast op dinsdag 29 september 2009 15:10
 

Synoniemen

Laatst aangepast op zondag 15 november 2009 13:41
 

Grammaticacontrole

De grammaticacontrole voor de Nederlandse taal is sterk in ontwikkeling.

De basis voor deze controle is de bestaande tool 'languagetool', zodat niet het wiel volledig opnieuw uitgevonden hoeft te worden qua technologie. Daniel Naber heeft met deze tool al een heel goede basis gelegd voor grammaticacontrole die zowel binnen OOO als door welke applicatie dan ook gebruikt kan worden. Door het in java te bouwen is ook de platformonafhankelijkheid door hem gegarandeerd. Complimenten !

Languagetool kan gemakkelijk uitgebreid worden met andere talen. Dus ook met Nederlands. Dat is precies wat dit project aan het doen is. Behalve enige java-programmering voor het invoegen van de taal Nederlands en wat specifieke regels, moet vooral aandacht besteed worden aan het vinden van de meest voorkomende grammaticafouten en het bedenken van slimme regels hiervoor, die (bijna) alleen een waarschuwing geven als dat terecht is. Door de complexiteit van de taal is dat niet eenvoudig.

Gelukkig ondersteunt languagetool ook geavanceerde mogelijkheden als 'tagging' van woorden, waardoor de woordsoort bekend is. Hiermee zijn geavanceerde regels te maken.
We hebben een set 'getagde' woorden gedoneerd gekregen vanuit de RijkUniversiteit Groningen, wat meer algemene regels mogelijk maakt.

 

Laatst aangepast op donderdag 13 augustus 2009 20:42 Lees meer...
 

Woordsoorten en - relaties

Om de grammaticacontrole te ondersteunen, maar ook om flexie- en basisvormen te onderscheiden worden de relaties tussen woorden vastgelegd en woorden getypeerd. Dat is belangrijk precisiewerk, met veel handwerk..

Laatst aangepast op zondag 15 november 2009 13:41
 


Pagina 1 van 2
Banner

Zoeken

Webopentaal.org