Kuvaavat sanat
Ajatus kuvailevien sanojen moottorista syntyi, kun rakensin Moottoria sukulaisuussanoille (se on kuin tesaurus, mutta antaa sinulle paljon laajemman joukon sukulaisuussanoja, eikä vain synonyymejä). Kun leikittelin sanavektoreilla ja conceptnetin ”HasProperty”-API:llä, minulla oli hieman hauskaa yrittää löytää adjektiiveja, jotka yleisesti kuvaavat sanaa. Lopulta tajusin, että tähän on olemassa paljon parempi tapa: parseeraa kirjoja!
Project Gutenberg oli alkuperäinen korpus, mutta parserista tuli yhä ahneempi ja ahneempi, ja päädyin syöttämään sille noin 100 gigatavua tekstitiedostoja – enimmäkseen kaunokirjallisuutta, mukaan lukien monia nykyajan teoksia. Parseri yksinkertaisesti katsoo jokaisen kirjan läpi ja vetää esiin erilaiset substantiivien kuvaukset.
Toivottavasti se on muutakin kuin pelkkä uutuus ja jotkut ihmiset todella pitävät sitä hyödyllisenä kirjoitustyössään ja aivoriihessään, mutta yksi siisti pikku juttu, jota voi kokeilla, on vertailla kahta substantiivia, jotka ovat samankaltaisia mutta eroavat toisistaan jollakin merkittävällä tavalla – esimerkiksi sukupuoli on mielenkiintoinen: ”nainen” vastaan ”mies” ja ”poika” vastaan ”tyttö”. Alustavan pika-analyysin perusteella näyttää siltä, että kaunokirjallisuuden kirjoittajat kuvaavat naisia (miehiin verrattuna) vähintään 4x todennäköisemmin kauneuteen liittyvillä termeillä (jotka koskevat heidän painoaan, piirteitään ja yleistä viehättävyyttään). Itse asiassa ”kaunis” on ehkä eniten käytetty adjektiivi naisista koko maailmankirjallisuudessa, mikä on varsin linjassa naisten yleisen yksiulotteisen kuvauksen kanssa monissa muissa mediamuodoissa. Jos joku haluaa tehdä lisätutkimuksia tästä asiasta, ilmoittakaa minulle, niin voin antaa teille paljon enemmän tietoja (esimerkiksi sanalle ”nainen” on noin 25000 erilaista merkintää – liian monta esitettäväksi tässä).
Tulosten sinisyys kuvaa niiden suhteellista yleisyyttä. Voit viedä hiiren kursorin jonkin nimikkeen päälle sekunnin ajaksi, jolloin frekvenssipisteiden pitäisi tulla näkyviin. ”Yksilöllisyys”-lajittelu on oletusarvoinen, ja komplisoidun algoritmini™ ansiosta se järjestää ne sen mukaan, miten yksilöllisiä adjektiivit ovat kyseiselle substantiiville suhteessa muihin substantiiveihin (se on itse asiassa melko yksinkertaista). Kuten arvata saattaa, voit napsauttaa ”Lajittele käyttötiheyden mukaan” -painiketta saadaksesi adjektiivit niiden käyttötiheyden mukaan kyseiselle substantiiville.