OpenTaal OpenTaal
  • Voorpagina
  • Downloads
  • Contact

Welkom bij OpenTaal

Woordfrequenties gepubliceerd

Details
ruud
Nieuws
28 april 2010
Hits: 6950
  •  Afdrukken 

De meest recente export van de telling van 'woorden', verzameld uit onze oogst, is nu ook gepubliceerd onder Downloads, naslagwerken.

Dit bestand bevat niet alleen correcte woorden. Voor allerlei onderzoek kan het nuttig zijn om ook de tellingen te hebben van woorden die fout zijn.

Om alleen de tellingen van correcte woorden te krijgen is natuurlijk eenvoudig een combinatie te maken met onze woordenlijst, het bronbestand.

Wikken en wegen rond de spellingcontrole

Details
Ruud
Nieuws
13 maart 2010
Hits: 4884
  •  Afdrukken 

Soms moeten we lastige keuzes maken bij het samenstellen van de woordenlijst en spellingcontrole. De woordenlijst is daarbij vooral bedoeld om een zo compleet mogelijk overzicht te geven van correcte woorden, terwijl de spellingcontrole vooral bedoeld is om de gebruiker op taalfouten te wijzen.

Soms is het dan lastig kiezen.

Verwarrende woorden

Sommige woorden zijn correct, maar komen aanzienlijk vaker voor als typefout dan juist gebruikt. Voorbeelden hiervan zijn 'verassen' en 'si'. Dit soort correcte woorden nemen we in de woordenlijst op als verwarrend, en laten ze door de spellingcontrole als fout melden.

Het liefst zouden we in de spellingcontrole waarschuwen voor verwarrende woorden in plaats van gewoon afkeuren, maar dat kan (nog) niet.

Koppelteken

In het Nederlands is in een woord op sommige plaatsen om diverse redenen een koppelteken verplicht, zoals in 'assistent-arts' , 'auto-onderdeel', 'tv-meubel' of 'woon-werkverkeer'. Maar het koppelteken mag ook worden gebruikt als de schrijver het woord anders moeilijk leesbaar vindt, zoals bijvoorbeeld in 'fiets-ster'.

We doen daarom ons best om het facultatieve koppelteken wel te ondersteunen. (Dit in tegenstelling tot alle andere bekende spellingcontrolemechanismen.)

Samenstellingen

In het Nederlands mag je woorden aan elkaar plakken als het om één begrip gaat: adv-dag, meerdagentest, kinderschoenenwinkel.  We proberen dat zo goed mogelijk te ondersteunen met de mogelijkheden die de onderliggende software ons biedt.

Hier ontstaat echter ook het risico van onzinwoorden. Of van woorden die technisch gezien wel juist zijn, maar vaker een typefout zijn. Door zeer kritisch te zijn met de woorden die we wel en niet laten samenstellen (peil bijv. niet, in verband met de verwarring met pijl; ook niet woorden die met en zonder s aan het begin voorkomen (panne en spanne) om problemen met de routines voor  de tussen-s te voorkomen).

Dan blijven er nog typefouten over die toch nog correct worden bevonden. Door de door de spellingcontrole correct bevonden geoogste woorden van intensief naar minder gebruik stuk voor stuk na te kijken onderdrukken we elke gevonden fout.

Elk woord dat u zelf meldt, helpt ons ook weer.

Nadruktekens

Schrijfwijzen als 'vóór' en 'níét' zijn natuurlijk correct, maar worden bij de keuring niet geaccepteerd door de Taalunie. Hierover gaan we nog een keer met ze praten.We willen namelijk graag voorkomen dat mensen 'vóor', 'níet'  of 'wèl' schrijven door hiervoor het juiste alternatief aan te bieden.

En dat zonder in conflict te komen met het keurmerk.

Namen

Eigennamen van personen, organisaties en producten zijn weliswaar basiswoorden, maar worden niet door de Taalunie meegenomen in de keurmerkprocedure. We nemen veel gebruikte eigennamen op, na een eigen controle van de juiste schrijfwijze. Dit om fouten te voorkomen als 'pvda', 'groenlinks', 'FireFox', 'microsoft'. Alleen de gebruiksfrequentie en correctheid zijn hier argument voor opname. Echter, wanneer een organisatie expliciet opname verbiedt, geven we daar natuurlijk gehoor aan.

Samenstellingen met gelijkwaardige begrippen

Wanneer we de verhouding tussen prijs en kwaliteit bedoelen, moeten we prijs-kwaliteitverhouding schrijven. Sommige eindwoorden zijn goede indicatoren van voorafgaande gelijkwaardige begrippen (relatie, verhouding) en kunnen dus van samenstellen worden uitgesloten om prijskwaliteitverhouding en ouderkindrelatie  te voorkomen. Ook kan worden bestreden dat de (meest gebruikte) gecombineerde gelijkwaardige begrippen aan elkaar worden geplakt.

Alfa-2-versie van spellingcontrole 1.10G-flexibel

Details
Super User
Nieuws
28 maart 2010
Hits: 4578
  •  Afdrukken 

Eindelijk is het zo ver dat ik het aandurf om een publieke alfaversie van de spellingcontrole met herkenning van (veel) samenstellingen te publiceren.

Wat een puzzel was het.

Een 2e alfaversie kent natuurlijk nog gebreken. Je mag ook niet anders verwachten. Van diegenen die deze alfaversie aandurven hoop ik dan ook veel terugkoppeling te krijgen op het e-mailadres Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..

Wat echt anders is aan deze spellingcontrole is:

  • Veel geldige woordsamenstellingen worden geaccepteerd
  • het optionele koppelteken in woorden wordt (meestal) geaccepteerd.
  • bij de foute splitsing automatiserings machine wordt automatiserings- gesuggereerd en geaccepteerd (werkt nu nog alleen correct in OpenOffice.org 3.2).

Geldige samenstellingen die niet als zodanig worden onderkend, foute woorden die als correct worden gezien, alles wil ik weten om een nog betere versie kunnen maken.

Structurele hulp kan ik ook goed gebruiken. Moeilijk is het niet. Het gaat dan om het nakijken van de meest gebruikte woorden, die niet correct zijn voor de gewone 1.10 (en dus niet in onze woordenlijst staan) maar wel door de alfa worden geaccepteerd. Correcte woorden kunnen we opnemen in de lijst voor de keuring, foute of riskante moeten we blokkeren.

Ik hoop bij de laatste actie vooral op de inbreng van de taalkundigen onder ons.

Downloaden? Klik op ' Mozilla'  of 'OpenOffice.org 3.2' .

Na de alfa-fase volgt overigens nog een bètafase. Pas in september zullen we officieel de nieuwe spellingcontrole vrijgeven, met daarin ook de nieuwe door de keuringsprocedure correct bevonden woorden.


Testresultaten:

- 5-3-2010, Jan de R:: samenstellingen werken niet goed in Opera; dezelfde woorden gaan wel goed in Firefox 3.5.8.  Opera heeft kennelijk nieuwere versie van Hunspell nodig.

-5-3-2010, Jan de R: Mozilla-plug-in installeert niet in Firefox 3.6. (Inmiddels aangepast)

-6-3-2010, Jan de R: platteland stelt niet samen; de suggesties zijn wild. (Platteland samensteller gemaakt, samenstellen met tel stopgezet)

-8-3-2010, Peter: plug-in voor OOo is niet correct. (inmiddels gecorrigeerd)

-8-3-2010, Peter: man-vrouwwoorden gaan nog niet goed. (Inmiddels aangepast) Dit heeft gelijk een gebrek in Hunspell 1.2.8 aangetoond. (Voorlopig opgelost door de geoogste fouten als blokkering op te nemen.)

-8-3-2010, Jan de R: Nog voorzichtiger samenstellen met woorden met een tussen-s en woorden die met en zonder s kunnen beginnen. Dat betekende 1400 woorden controleren en aanpassen. (Opgelost door alle woorden die hier een probleem kunnen geven niet meer als samensteller te gebruiken.)

Al met al reden genoeg voor een update. Dus bijwerken maar weer!



-11-3-2010 Ruud B: de volgorde van aanbieden van de suggesties is nog niet best. Dat wordt beter als we aan uiteindelijk de meest voorkomende woorden los gaan toevegen.

-11-3-2010 Ruud B: Veel van de suggesties bij samenstellingen zijn nogal wild. We hebben een filter op te groot verschil van de invoer- en uitvoerwoorden voorgesteld aan de maker van Hunspell. Het verschijnsel wordt naarmate er meer woorden correct met samenstellingen worden gedaan ook minder.

- 28-3-2010 Er zijn veel aanpassingen gedaan. Onder meer om ervoor te zorgen dat alternatieven met een koppelteken eerder worden aangeboden dan allerlei 'kunstwoorden'. Verder is er een aanpassing gedaan voor Mozilla. Die blijkt vreemd om te gaan met de 'maxversion' die in de plug-in is ingesteld.


Wat is de juiste apostrof ?

Details
Ruud
Nieuws
25 januari 2010
Hits: 6449
  •  Afdrukken 

Tot nu toe hebben we in de spellingcontrole steeds de ' gebruikt in woorden als: programma's.

Professionele schrijvers kiezen echter voor de nette, kromme apostrof. Dat ziet er ook mooier uit, maar typt een stuk lastiger in. Gelukkig passen (sommige)  tekstverwerkers de ' zelf aan in de nette apostrof (‘) . (Helaas deze waarmee het artikel wordt gemaakt niet.)

Uit de gedachtewisseling op de mailing list is duidelijk geworden dat er voor onze apostrof eigenlijk geen teken is gereserveerd in unicode! Deze groep adviseert om het aanhalingsteken sluiten te gebruiken. Onderscheid tussen vorm en functie wordt daar niet volledig gemaakt.

Momenteel doen we een experiment wat het betekent voor de verschillende gebruikende producten als we de spellingcontrole omzetten in utf-8, en de nette apostrof gebruiken.

Goede testgevallen zijn:

  • bureau's, wat altijd fout is (met wat voor apostrof ook), maar als de software foutief apart bureau en s aanlevert aan Hunspell, dan wordt het woord correct bevonden.
  • programmas, wat altijd fout is, en waarvoor de suggestie van programma's zou moeten geven (met de gekozen apostrof)
  • programma's (met de gekozen apostrof) dient altijd correct te worden bevonden

De resultaten tot nu toe zijn:

Testgeval Met normale 1.10 Met aangepaste 110
Mozilla (Tb+Ff) bureau's
ziet fout, suggereert bureaus
bureau’s ziet fout, geen suggestie
programma's acht dit correct
programma’s acht dit correct
programmas ziet fout, suggereert programma's ziet fout, suggereert  ’
OpenOffice.org bureau's ziet fout, suggereert bureaus
bureau’s ziet fout, suggereert bureaus
programma's acht dit correct
programma’s acht dit correct
programmas ziet fout, suggereert programma's
Google Chrome bureau's ziet fout niet
ziet fout niet
bureau’s ziet fout niet
ziet fout niet
programma's acht het goed
acht het goed
programma’s acht het goed
acht het goed
programmas ziet fout, suggereert programma's
ziet fout, suggereert programma’s
Opera bureau's ziet fout, suggereert bureaus ziet fout, suggereert bureaus
bureau’s ziet fout, suggereert bureaus ziet fout, suggereert bureaus
programma's acht dit correct acht dit fout, suggereert programma’s
programma’s acht dit fout, suggereert programma's acht dit goed
programmas ziet fout, suggereert programma's ziet fout, suggereert programma’s
Snow Leopard bureau's ziet fout niet ziet fout niet
bureau’s ziet fout niet ziet fout niet
programma's acht dit correct
programma’s acht dit correct
programmas ziet fout, suggereert programma's ziet fout, suggereert programma’s

In OpenOffice.org zit kennelijk een vertaling van de ene naar de andere apostrof; anders zijn de resultaten van 1.10 niet te verklaren. In elk geval gaat het grotendeels goed.

Bij Snow leopard lijkt het structureel fout te gaan. Beide typen apostrof worden niet als deel van het woord gezien. Dat is een gebrek in de software in de interface met Hunspell. Tijd voor een probleemmelding aan Apple. Joost doet hiertoe een poging.

Ook Chrome gaat structureel fout.. Tijd om een bug te melden. Die contacten hebben we wel.

 


 

Voorstel voor implementatie in toekomstige woordenlijsten:

1) elke teken dat veel als apostrof wordt gebruikt (', ’ en ´, mogelijk ook de ` ) accepteren als teken van woord, zodat bureau's, bureau’s en bureau´s fout worden gerekend.

2) De makers van de gebruikende software op hun verantwoordelijkheid wijzen.

Er is nog geen uniformiteit in de mening over:

3a) in de suggesties alleen de ’ aanbieden (Reinout)

3b) In de suggesties alleen de ' aanbieden en de rest aan de softwaremakers overlaten (Simon)

3c) Zowel de ' als de ’ aanbieden. (Jan)

 

acht dit fout, suggereert programma’s

Vrienden van OpenTaal

Details
Super User
Statische Content
15 februari 2010
Hits: 25940
  •  Afdrukken 

In december 2009 is stichting OpenTaal opgericht. De stichting heeft tot doel om de community te ondersteunen en heeft geen winstoogmerk. De bestuurders ontvangen geen beloning voor hun werkzaamheden. De rechtsvorm maakt het bijvoorbeeld mogelijk om met externe partijen afspraken te maken en verdere samenwerking aan te gaan. Op dit moment zijn we bijvoorbeeld met de Nederlandse Taalunie en het Instituut voor Nederlandse Lexicologie in gesprek om de samenwerking uit te breiden en een deel van hun taalbronnen voor ons en anderen beschikbaar te maken.

Gelukkig is er al een aantal partijen dat ons nu (vaak in natura) steunt of dat in het verleden heeft gedaan.Om de stichting en het project te laten bruisen hebben we ook jouw hulp nodig. Om de stichting draaiende te houden en de activiteiten van de stichting verder uit te breiden hebben we namelijk ook financiële middelen nodig. Daarom nodigen we je uit om vriend van OpenTaal te worden.

Uiteraard ben je zelf vrij om de hoogte van het bedrag zelf te bepalen. Mocht je daarop prijs stellen dan vermelden we je naam in het overzicht van donateurs op de website.Op de website worden je naam, donateurscategorie en donatiejaren vermeld.  We zullen met enige regelmaat laten weten hoe de financiële middelen worden ingezet. Om wat houvast te geven en voor de naamsvermelding in het overzicht van donateurs hebben we de onderstaande donateurscategorieën bedacht.

  • Maatje van OpenTaal: EUR 20,- per jaar
  • Kameraad van OpenTaal: EUR 40,- per jaar
  • Partner van OpenTaal: EUR 100,- per jaar

Je kunt je bijdrage overmaken naar rekeningnummer 15.62.32.782 (Rabobank Utrecht) t.n.v. Stichting OpenTaal o.v.v. "Vriend van OpenTaal". Uiteraard is het mogelijk  om eenmalig een donatie te doen. Omwille van continuïteit en voorspelbaarheid willen we je aanvullend vragen om je eventuele bijdrage jaarlijks (geautomatiseerd) op de Europese Dag van de Talen (26 september) te doen.

Stichting OpenTaal is door de Belastingdienst aangewezen als ANBI. Giften aan Stichting OpenTaal zijn daardoor fiscaal aftrekbaar.

Donatie van buiten Nederland

Voor donatie van buiten Nederland heb je de volgende gegevens nodig:

BIC: RABONL2U

IBAN: NL88RABO0156232782

Voor meer informatie over BIC/IBAN zie http://www.ibanbicservice.nl/



Bij voorbaat hartelijk bedankt voor je bijdrage aan een nog bruisender OpenTaal!


De sponsoring bestond tot nu toe uit:

Wanneer?   
Donatie door
Categorie
Oktober 2012 TaalTik Partner
Mei 2012 Donatie van Digitalis
April 2012, 2013, 2014 Hellebaard
Partner
Maart 2012 Donaties via Mozzillla ADD ON voor 2011
Januari 2012 Donatie van Bookman, Android app
Januari 2012 R Jansen
November 2011 Vertaalbureau Snelvertaler.nl
Oktober 2011 Taaltik Partner
September 2011 Donatie van R. Roodselaar
Januari 2011 Donaties via Mozilla ADD ON voor 2010
September 2010 NTU heeft subsidie gegeven voor het aanpassen van Hunspell voor de Nederlandse taal.
Juni 2010

Donatie door Hellebaard

December 2009 Donatie door NLUUG om de stichtingskosten te dekken van de Stichting OpenTaal.
November 2009 Donatie van 4 gebruikte servers.
Oktober 2009 Zarafa en verschillende individuen sponsorden de kennissessie met de Hongaarse ontwikkelaar van Hunspell, Németh László.
Vanaf juli 2009

Kovoks verzorgt de webhosting van onze website en faciliteert een werkomgeving waarin wij onze werkzaamheden kunnen bundelen en delen.

Partner
April 2006 Eenmalige sponsoring voor ontwikkeling van poster door stichting NLNet.
Vanaf 2005 De Nederlandstalige TeX Gebruikersgroep (NTG) geeft OpenTaal ruimte en toegang tot een van hun servers die wij inzetten bij het ontwikkelen van de woordenlijst. Partner

Meer artikelen...

  1. Ongewenst gebruik van de site
  2. Persbericht: OpenTaal is een stichting
  3. Voortgang oogsten
  4. Persbericht OpenTaal
Pagina 9 van 10
  • Start
  • Vorige
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • Volgende
  • Einde

Project

  • Start
  • Wat is OpenTaal
  • Nieuws
  • Licentie
  • Vrienden van OpenTaal
  • Stichting OpenTaal

Downloads

  • Bestanden downloaden
  • Controle installatie
  • Presentaties

Meedoen

  • Algemeen
  • Lopende zaken
  • Klussenpot
  • Projecten
  • Woorddetails
  • Woorden beoordelen
  • Suggesties
  • Software-issues
  • Mailinglists

Bijdragen vanuit je luie stoel

  • Onze woordenzoeker
  • Onze zinnenoogster
  • Sponsor ons

Tussendoortjes

  • Woorden beoordelen
  • Woordsoorten controleren

Extra

  • Login
  • Begrippenlijst
Banner Kovoks

Stichting

  • Statuten
  • Notulen
  • Financiële rapportage

Statistieken

  • Nieuwe woorden
  • Nieuwe zinnen
  • Groei corpus

Social Media

  • Facebook
  • Google+
  • LinkedIn
  • Twitter
Bootstrap is a front-end framework of Twitter, Inc. Code licensed under MIT License. Font Awesome font licensed under SIL OFL 1.1.