Nije bydrage yn it dossier troch Anne Dykstra.

Foar dizze koarte bydrage haw ik de teksten fan 'e Lapekoer brûkt út de Rimen en Teltsjes sa’t dy útjûn is troch Ph.H. Breuker, Tineke J. Steenmeijer-Wielenga en Tr. Riemersma (1993), digitaal beskikber op DBNL

Ik haw earst de Lapekoer ferdield yn de teksten dy’t yn dizze útjefte oan respektyflik Joast en Eeltsje taskreaun binne. Fanwegen de webside dy’t ik brûkt haw, moast ik dêrnei om frekwinsjelisten te meitsjen beide teksten gâns behoffenje. Sa moast ik alle oanheltekens derút helje, om’t dy troch de webside oan it wurd dêr’t it om giet taheakke wurde, en dus as apart wurd teld wurde. Gauris wurde yn ‘e Lapekoer ek oanheltekens brûkt om oan te jaan dat der, om reden fan metrum of oars, in letter fuortlitten is, bygelyks ‘is yn stee fan ris. Yn sokke gefallen haw ik de weilitten letter wer ynbrocht. Soe ik dat net dwaan, dan soe ‘is by is teld wurde, en net by ris. Sa is bygelyks ‘joer ek djoer wurden en sill’ waard sille. Guon sille dat faaks spitich fine, mar dy kinne hiel maklik sels listen meitsje mei de help fan boppesteande webside. Yn ‘e teksten komme dy en dêr ek foar op plakken dêr’t we no dy’t en dêr’t staverje soene, dat is net oanpast. En sa sille der noch wol wat ûnregelmjittichheden yn sitte. Merk op dat de listen net yn de nijste stavering binne.

Teksten fan oaren as de bruorren en teksten dy’t folslein yn in oare taal as it Frysk steld wiene, haw ik net brûkt. Oarstalige fragminten yn 'e rinnende tekst, haw ik stean litten, lykas sifers en jiertallen. Hielendal suver is dat net, mar it giet om sa’n lyts bytsje, dat it effekt op it totaal minimaal wêze sil. Ik haw myn bêst dien om de teksten sa skjin mooglik te meitsjen, mar der sil noch wol ris in bonkje yn sitte.

Types en tokens

Ik jou, lykas sein, yn dizze bydrage twa frekwinsjelisten, ien fan it wurk fan Eeltsje, en ien fan it wurk fan Joast. Ferliking fan beide listen sil grif allerhanne nijsgjirrichs opsmite, mar ik behein my hjir ta wat yn algemiene sin oer de wurdskat fan Joast en Eeltsje sein wurde kin. Dêrfoar jou ik earste in koarte útlis.

In frekwinsjelist bestiet út types en tokens. By de types giet it om ferskillende wurden yn in tekstkorpus, by tokens giet it om it oantal foarkommens fan de types. Lit ús even oannimme dat dit ús tekstkorpus is:

          Jan en Minke binne heit en mem, lykas harren heit en mem hawwe se trije bern, dy’t allegearre deselde nammen hawwe as de bern fan Jan en Meintsje.

Dit tekstkorpus bestiet út 28 wurden, dêr’t guon fan faker as ien kear foarkomme, dat binne de tokens. It tal ferskillende wurden is 20, dat binne de types. Yn in typelist oardere op frekwinsje sjocht dat der sa út:

1

en

4

2

bern

2

3

Jan

2

4

hawwe

2

5

heit

2

6

mem

2

7

binne

1

8

de

1

9

deselde

1

10

dy’t

1

11

Minke

1

12

fan

1

13

harren

1

14 

allegearre  

1

15

as

1

16

lykas

1

17

Meintsje

1

18

nammen

1

19

se

1

20

trije

1

   

28

     

Wannear’t we de ferskillende wurden (de types) ôfsette tsjin it totaal oantal wurden (de tokens) krije we de type-token ratio. Wat heger de ratio, wat mear ferskillende wurden oft in skriuwer yn in beskate tekst brûkt, dus wat grutter oft syn wurdskat is. We kinne de type-token ratio útrekkenje yn dizze formule (types/tokens) * 100. Yn boppesteand foarbyld:

(20/28) * 100 = 71,42%

Dat is in hiel hege ratio, dy’t nimmen yn in langere tekst helje sil.

Types en tokens yn 'e teksten fan Joast en Eeltsje

Type-token ratio Joast

Joast syn teksten hawwe 7320 types en 50688 tokens. Yn 'e formule set wurdt dat:

(7320/50688) * 100  = 14,44%

Type-token ratio Eeltsje

Eeltsje syn teksten hawwe 4674 types en 24382 tokens. Yn 'e formule wurdt dat:

(4674/24382) * 100 = 19,16%

Eeltsje hat de heechste ratio, mar dat seit noch net dat syn wurdskat dêrmei ek grutter is as Joast synt. Joast is hjir yn it neidiel, om’t syn korpus oan teksten grutter is, en wat grutter it korpus, wat leger oft de ratio útfalle sil. Boppedat haw ik gjin rekken holden mei it aard fan 'e teksten. It sil mooglik ferskil meitsje at je it oer gedichten of proaza hawwe. Dêr soene wer aparte frekwinsjelisten foar makke wurde moatte. Dat doch ik hjir dus net. Wat folget is dêrmei gjin yngeande wurdskatanalyze. Foar dy’t dat al dwaan wol, jou ik yn ‘e taheakken de generearre wurdlisten oardere op frekwinsje en oardere op alfabet. Merk op dat de ‘y’ syn eigen plakje hat yn it alfabet.

De meast frekwinte types yn suver elk korpus besteane út funksjewurden lykas lidwurden, bynwurden, oanwizende foarnamwurden, en foarmen fan helptiidwurden. By Joast en Eeltsje is dat net oars. Hielendal suver binne ûndersteande tabellen net, want oan it korpus binne gjin wurdsoarten taheakke. By de foarm mei op de posysjes 11 en 13, bygelyks, binne de tiidwurdsfoarm mei en it ferhâldingswurd mei byinoar opteld.

Joast                   Eeltsje

1

DE

2729

     1  

DE

1126

2

EN

1647

     2

EN

918

3

IT

1594

     3

IT

742

4

IN

1277

     4

IN

528

5

FAN

990

     5

IK

423

6

DAT

934

     6

DY

394

7

YN

818

     7

DAT

386

8

DY

807

     8

YN

338

9

AS

742

     9

AS

301

10

TE

616

   10

FAN

266

11

MEI

594

   11

MAR

264

12

IK

579

   12

NET

261

13

OP

553

   13

MEI

258

14

WIE

539

   14

OP

217

15

NET

533

   15

ER

215

16

MAR  

505

   16

WIE 

213

17 

ER

489

   17

DÊR

202

18

IS

434

   18

IS

194

19

DÊR

419

   19

OAN  

183

20

SE

398

   20

TE

183

 

Telle we per skriuwer de 20 meast frekwinte wurdfoarmen byinoar op, dan binne dat foar Joast 17197 tokens en foar Eeltsje 7612.

We witte dat Joast syn Lapekoerteksten 50688 tokens hawwe. De earste 20 types meitsje dêr al (17197/50688) * 100 = 33,9% fan út. De earste 100 types komme opteld op 28776 út, oftewol (28776/50688) * 100 = 56,8% fan it totaal fan alle teksten. Dogge we deselde berekkening foar de earste 300 types, dan komme we út op (34916/50688) * 100 = 68,9%.

Eeltsje syn teksten hawwe 24382 tokens. Foar de earste 20 types komt dat út op (7612/24382) * 100 = 31,2% fan alle tokens. De earste 100 types komme opteld op 13268 út, oftewol (13268/24382) * 100 = 54,4% fan it totaal fan alle teksten. Foar de earste 300 types is dat: (16455/24382) * 100 = 67,5%.

Joast en Eeltsje ûntrinne inoar by de earste 300 types noch sa bot net. Foar respektyflik 68,9% en 67,5% fan it totaal oantal wurden dat de bruorren foar harren teksten brûkt hawwe, hawwe se mar 300 ferskillende wurdfoarmen brûkt. De ferskillen yn 'e wurdskat fan beide mannen sille yn 'e leechfrekwinte wurden nei foaren ta komme.

In analyze fan 'e wurdskat fan Joast en Eeltsje dy’t djipper dolt as mynt, sil tink yn alle gefallen de ferskillen yn tekstsoarten, poëzij en proaza, yn acht nimme moatte. Foar in noch suverder byld soene eins de hiele Rimen en Teltsjes analysearre wurde moatte. Fan beide bruorren sil de type-token ratio dan leger útkomme, want, lykas hjirboppe al sein, wat grutter it korpus, wat leger de ratio. Sa sit de type-token ratio fan de hiele Lapekoer om de 13% hinne.

Taheakken:
Frekwinsjelisten diel 1
Frekwinsjelisten diel 2
Frekwinsjelisten diel 3
Frekwinsjelisten diel 4

Anne Dykstra
Akkrum, septimber 2022

Lês de oare stikken yn it dossier oer 200 jier Lapekoer:
Ynlieding
Leauwe yn 'e 19e iuw: tusken frijsinnichheid en rjochtsinnichheid
Gabe Skroar. De gongmakker fan it Fryske skriuwen