Beskrivande ord

Idén till beskrivningsmotorn kom när jag byggde motorn för relaterade ord (det är som en tesaurus, men ger dig en mycket bredare uppsättning relaterade ord, snarare än bara synonymer). När jag lekte med ordvektorer och API:et ”HasProperty” i conceptnet hade jag lite roligt när jag försökte få fram de adjektiv som vanligtvis beskriver ett ord. Så småningom insåg jag att det finns ett mycket bättre sätt att göra detta: analysera böcker!

Project Gutenberg var den ursprungliga korpusen, men analysatorn blev girigare och girigare och det slutade med att jag matade den med någonstans runt 100 gigabyte textfiler – mestadels skönlitteratur, inklusive många samtida verk. Parsern tittar helt enkelt igenom varje bok och tar fram de olika beskrivningarna av substantiv.

Förhoppningsvis är det mer än bara en nyhet och vissa människor kommer faktiskt att tycka att det är användbart för sitt skrivande och sin brainstorming, men en liten trevlig sak att pröva är att jämföra två substantiv som liknar varandra, men som skiljer sig åt på något betydelsefullt sätt – till exempel är kön intressant: ”kvinna” jämfört med ”man” och ”pojke” jämfört med ”flicka”. Vid en första snabb analys verkar det som om författare till skönlitteratur är minst fyra gånger mer benägna att beskriva kvinnor (i motsats till män) med skönhetsrelaterade termer (om deras vikt, egenskaper och allmänna attraktionskraft). Faktum är att ”vacker” kanske är det mest använda adjektivet för kvinnor i all världslitteratur, vilket ligger helt i linje med den allmänna endimensionella framställningen av kvinnor i många andra medieformer. Om någon vill forska vidare om detta, hör av dig till mig så kan jag ge dig mycket mer data (det finns till exempel cirka 25000 olika poster för ”kvinna” – för många för att visas här).

Den blåa färgen på resultaten representerar deras relativa frekvens. Du kan hålla muspekaren över ett objekt i en sekund och frekvenspoängen bör dyka upp. Sorteringen ”unikhet” är standard, och tack vare min Complicated Algorithm™ ordnar den dem efter adjektivens unikhet för just det substantivet i förhållande till andra substantiv (det är faktiskt ganska enkelt). Som förväntat kan du klicka på knappen ”Sort by Usage Frequency” (Sortera efter användningsfrekvens) för att få fram adjektiv efter deras användningsfrekvens för det substantivet.

Lämna ett svar

Din e-postadress kommer inte publiceras.