Beskrivende ord

Ideen til motoren til beskrivende ord kom, da jeg byggede motoren til relaterede ord (det er ligesom en synonymordbog, men giver dig et meget bredere sæt af relaterede ord, i stedet for kun synonymer). Mens jeg legede rundt med ordvektorer og “HasProperty”-APPI’en i conceptnet, havde jeg lidt sjov med at forsøge at få de adjektiver, der almindeligvis beskriver et ord. Til sidst indså jeg, at der er en meget bedre måde at gøre dette på: parse bøger!

Project Gutenberg var det oprindelige korpus, men parseren blev grådigere og grådigere, og jeg endte med at fodre den med et eller andet sted omkring 100 gigabyte tekstfiler – hovedsagelig fiktion, herunder mange samtidige værker. Parseren kigger simpelthen hver bog igennem og trækker de forskellige beskrivelser af navneord ud.

Håbenligt er det mere end bare en nyhed, og nogle mennesker vil faktisk finde det nyttigt for deres skrivning og brainstorming, men en smart lille ting at prøve er at sammenligne to navneord, der ligner hinanden, men som er forskellige på en væsentlig måde – f.eks. er køn interessant: “kvinde” versus “mand” og “dreng” versus “pige”. Ved en indledende hurtig analyse ser det ud til, at forfattere af fiktion er mindst 4x mere tilbøjelige til at beskrive kvinder (i modsætning til mænd) med skønhedsrelaterede udtryk (vedrørende deres vægt, træk og generelle tiltrækningskraft). Faktisk er “smuk” muligvis det mest anvendte adjektiv for kvinder i al verdenslitteratur, hvilket er helt på linje med den generelle unidimensionale fremstilling af kvinder i mange andre medieformer. Hvis nogen har lyst til at forske yderligere i dette, så sig til, så kan jeg give jer en masse flere data (der er f.eks. ca. 25000 forskellige indtastninger for “kvinde” – for mange til at vise her).

Den blå farve i resultaterne repræsenterer deres relative hyppighed. Du kan holde musen hen over et emne i et sekund, og frekvensscoren bør dukke op. Sorteringen “unikhed” er standard, og takket være min Complicated Algorithm™ ordner den dem efter adjektivernes unikhed for det pågældende substantiv i forhold til andre substantiver (det er faktisk ret simpelt). Som forventet kan du klikke på knappen “Sortér efter brugsfrekvens” for at få adjektiverne sorteret efter deres brugsfrekvens for det pågældende navneord.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.