OpenTaal OpenTaal
  • Voorpagina
  • Downloads
  • Contact

Welkom bij OpenTaal

Karakterfrequentie

Details
Sander van Geloven
Nieuws
03 september 2011
Hits: 9449
  •  Afdrukken 

Zoals eerder vermeld heb ik enkele overzichten samengesteld na het doen van een klein onderzoek op de woordenlijst 2.00 van OpenTaal. In een aantal kleine artikelen wil ik de resultaten met jullie delen. Bij dezen deel 2, waarin ik het histogram van karakterfrequenties bespreek.

Als men wederom eigennamen buiten beschouwing laat, is het voorkomen van letters te tellen in bijna 320.000 goedgekeurde woorden. Deze bevatten ook vervoegingen en verbuigingen. Door geautomatiseerd de tellingen van karakters, de karakterfrequentie, bij te houden van alle woorden in de woordenlijst is het mogelijk om daar een histogram van te maken. Het eindresultaat is in de volgende grafiek te zien. Let op, dit zegt verder niets over hoe vaak karakters gebruikt worden.

Vanwege de grote aantallen was het nodig te werken met een logaritmische schaal. Hierdoor zijn duidelijk drie gebieden te herkennen. Aan de linkerzijde zijn is eenvoudig een groep te herkennen van letters die het vaakst voorkomen. Deze wordt gevolgd door een groep karakters in het midden die minder vaak voorkomen. Dit zijn met name de y, z, x en q en klinkers met gangbare diakritische tekens zoals de ë, ï, é en è. Deze groep bevat overigens ook het koppelteken, de apostrof en de spatie. Deze leestekens kunnen namelijk deel uit kunnen maken van Nederlandse woorden. De karakterfrequentie neemt in deze groep overigens sterk af.

Als laatste is aan de rechterzijde een groep te vinden van karakters die zelden voorkomen. De voor Nederlandse begrippen exotische ñ maakt hier bijvoorbeeld deel van uit. Deze wordt overigens gebruikt in Spaanse leenwoorden zoals señor, señorita en doña. Verder worden de ä en ô gebruikt in Duitse en Franse leenwoorden zoals aufklärung, hüttenkäse, salonfähig, hôtelier en maîtres d'hôtel. Het wordt nog duidelijker waarom hier over karakters in plaats van letters wordt gesproken omdat deze groep zelfs cijfers bevat. Als men dit overzicht rustig aanschouwt is er heel wat handige informatie in te vinden. Kortom, doe hier je voordeel mee als je weer eens een spelletje galgje speelt.

Ten slotte is hier het bestand te vinden met de tellingen waar bovenstaande grafiek uit vervaardigd is en hier diezelfde tabel in Wiki-opmaak. Zie de licentie van OpenTaal voor hergebruik van dit bestand en de grafiek.

See also the English version of the graph, histogram and table in Wiki markup. All are licensed BSD and Creative Commons.

Spellingcontrole voor Apple Lion

Details
rjb
ROOT
24 augustus 2011
Hits: 3676
  •  Afdrukken 

Joost tipte ons dat Apple Lion ook met onze spellingcontrole kan werken. Bij onderzoek bleek dat het zelfs (eindelijk) een redelijk recente versie was, een waarop onze 2.0 kan functioneren.

Dat is nu een nieuwe download geworden, die de spelling op Lion aanzienlijk in kwaliteit verbetert.

Appelaars ... kijk onder Downloads!

Joost, dank!

Keuring succesvol afgesloten

Details
rjb
Nieuws
22 augustus 2011
Hits: 6332
  •  Afdrukken 

We hebben weer een keuringsronde netjes af kunnen ronden.

Zo'n 6500 nieuwe basiswoorden kunnen dus aan de woordenlijst worden toegevoegd, met al hun afgeleiden.

De nieuwe basiswoordenlijst krijgt mogelijk het predicaat 'editie zomer 2011' . Downloaden van deze lijst is nog niet mogelijk; even geduld a.u.b.

Dat levert een nieuwe woordenlijst op, en op termijn ook een nieuwe spellingcontrole.

Er is ook dit keer een aantal woorden voor overleg aangehouden. Die mogelijk de volgende keer opnieuw meedoen.

Ingezonden brief OpenTaal in NRC

Details
Super User
Nieuws
18 juli 2011
Hits: 8750
  •  Afdrukken 

Onderstaande ingezonden brief van OpenTaal is op 16 juli 2011 gepubliceerd in NRC Handelsblad. De brief is een reactie op de Woordhoek-column over "uistekend" van Ewoud Sanders.

Ingezonden brief OpenTaal in NRC

Fout? Verbeteren!

Details
rjb
Nieuws
22 juni 2011
Hits: 8002
  •  Afdrukken 

Met het oogsten hebben we veel voorbeeldzinnen gekregen. Hieruit is een selectie gemaakt (ruim 1 miljoen) waarin zeker een fout of een onbekend woord staat. Door alle fouten te corrigeren (zowel fouten die 1 woord beslaan als fouten die meerdere woorden beslaan)  ontstaat een goed beeld van de meest gemaakte fouten. Wat weer zinvolle informatie is voor spelling- of grammaticacontrole.

Fouten van een enkel woord kun je corrigeren na het klikken op het woord; voor het corrigeren van fouten die meerdere woorden beslaan, kun je achtereenvolgens de linker en rechter grens markeren.

Meer artikelen...

  1. Meer zeldzame woorden vinden
  2. Woordlengte
  3. Hulp gevraagd
  4. Spellingcontrole in Joomla in combinatie met Firefox
Pagina 5 van 9
  • Start
  • Vorige
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • Volgende
  • Einde

Project

  • Start
  • Wat is OpenTaal
  • Nieuws
  • Licentie
  • Vrienden van OpenTaal
  • Stichting OpenTaal

Downloads

  • Bestanden downloaden
  • Controle installatie
  • Presentaties

Meedoen

  • Algemeen
  • Lopende zaken
  • Projecten
  • Woorddetails
  • Woorden beoordelen
  • Suggesties
  • Software-issues
  • Mailinglists

Bijdragen vanuit je luie stoel

  • Onze woordenzoeker
  • Onze zinnenoogster
  • Sponsor ons

Tussendoortjes

  • Woorden beoordelen
  • Woordsoorten controleren

Extra

  • Login
  • Begrippenlijst
Banner Kovoks

Stichting

  • Statuten
  • Notulen
  • Financiële rapportage

Statistieken

  • Nieuwe woorden
  • Nieuwe zinnen
  • Groei corpus

Social Media

  • Facebook
  • Google+
  • LinkedIn
  • Twitter
Bootstrap is a front-end framework of Twitter, Inc. Code licensed under MIT License. Font Awesome font licensed under SIL OFL 1.1.