Opentaal.org

  • Vergroot lettergrootte
  • Standaard lettergrootte
  • Verklein lettergrootte
Welkom bij OpenTaal

Karakterfrequentie

Zoals eerder vermeld heb ik enkele overzichten samengesteld na het doen van een klein onderzoek op de woordenlijst 2.00 van OpenTaal. In een aantal kleine artikelen wil ik de resultaten met jullie delen. Bij dezen deel 2, waarin ik het histogram van karakterfrequenties bespreek.

Als men wederom eigennamen buiten beschouwing laat, is het voorkomen van letters te tellen in bijna 320.000 goedgekeurde woorden. Deze bevatten ook vervoegingen en verbuigingen. Door geautomatiseerd de tellingen van karakters, de karakterfrequentie, bij te houden van alle woorden in de woordenlijst is het mogelijk om daar een histogram van te maken. Het eindresultaat is in de volgende grafiek te zien. Let op, dit zegt verder niets over hoe vaak karakters gebruikt worden.

Vanwege de grote aantallen was het nodig te werken met een logaritmische schaal. Hierdoor zijn duidelijk drie gebieden te herkennen. Aan de linkerzijde zijn is eenvoudig een groep te herkennen van letters die het vaakst voorkomen. Deze wordt gevolgd door een groep karakters in het midden die minder vaak voorkomen. Dit zijn met name de y, z, x en q en klinkers met gangbare diakritische tekens zoals de ë, ï, é en è. Deze groep bevat overigens ook het koppelteken, de apostrof en de spatie. Deze leestekens kunnen namelijk deel uit kunnen maken van Nederlandse woorden. De karakterfrequentie neemt in deze groep overigens sterk af.

Als laatste is aan de rechterzijde een groep te vinden van karakters die zelden voorkomen. De voor Nederlandse begrippen exotische ñ maakt hier bijvoorbeeld deel van uit. Deze wordt overigens gebruikt in Spaanse leenwoorden zoals señor, señorita en doña. Verder worden de ä en ô gebruikt in Duitse en Franse leenwoorden zoals aufklärung, hüttenkäse, salonfähig, hôtelier en maîtres d'hôtel. Het wordt nog duidelijker waarom hier over karakters in plaats van letters wordt gesproken omdat deze groep zelfs cijfers bevat. Als men dit overzicht rustig aanschouwt is er heel wat handige informatie in te vinden. Kortom, doe hier je voordeel mee als je weer eens een spelletje galgje speelt.

Ten slotte is hier het bestand te vinden met de tellingen waar bovenstaande grafiek uit vervaardigd is en hier diezelfde tabel in Wiki-opmaak. Zie de licentie van OpenTaal voor hergebruik van dit bestand en de grafiek.

See also the English version of the graph, histogram and table in Wiki markup. All are licensed BSD and Creative Commons.

Laatst aangepast op zondag 12 mei 2013 18:03
 

Spellingcontrole voor Apple Lion

Joost tipte ons dat Apple Lion ook met onze spellingcontrole kan werken. Bij onderzoek bleek dat het zelfs (eindelijk) een redelijk recente versie was, een waarop onze 2.0 kan functioneren.

Dat is nu een nieuwe download geworden, die de spelling op Lion aanzienlijk in kwaliteit verbetert.

Appelaars ... kijk onder Downloads!

Joost, dank!

Laatst aangepast op woensdag 24 augustus 2011 12:08
 

Keuring succesvol afgesloten

We hebben weer een keuringsronde netjes af kunnen ronden.

Zo'n 6500 nieuwe basiswoorden kunnen dus aan de woordenlijst worden toegevoegd, met al hun afgeleiden.

De nieuwe basiswoordenlijst krijgt mogelijk het predicaat 'editie zomer 2011' . Downloaden van deze lijst is nog niet mogelijk; even geduld a.u.b.

Dat levert een nieuwe woordenlijst op, en op termijn ook een nieuwe spellingcontrole.

Er is ook dit keer een aantal woorden voor overleg aangehouden. Die mogelijk de volgende keer opnieuw meedoen.

Laatst aangepast op dinsdag 23 augustus 2011 10:00
 

Ingezonden brief OpenTaal in NRC

Onderstaande ingezonden brief van OpenTaal is op 16 juli 2011 gepubliceerd in NRC Handelsblad. De brief is een reactie op de Woordhoek-column over "uistekend" van Ewoud Sanders.

Ingezonden brief OpenTaal in NRC

Laatst aangepast op vrijdag 26 augustus 2011 08:44
 


Pagina 6 van 12
Banner

Bijdragen vanuit je luie stoel

Zoeken

Webopentaal.org