Leíró szavak

A Leíró szavak motor ötlete akkor jött, amikor a Kapcsolódó szavak motorját építettem (ez olyan, mint egy tezaurusz, de sokkal szélesebb körű rokon szavakat ad, nem csak szinonimákat). Miközben a szóvektorokkal és a conceptnet “HasProperty” API-jával játszottam, egy kicsit elszórakoztam azzal, hogy megpróbáltam megszerezni azokat a mellékneveket, amelyek általában leírnak egy szót. Végül rájöttem, hogy van egy sokkal jobb módja is ennek: könyvek elemzése!

A kezdeti korpusz a Project Gutenberg volt, de az elemző egyre mohóbb lett, és végül valahol 100 gigabájtnyi szövegfájlt etettem vele – főleg szépirodalmi műveket, köztük sok kortárs művet. Az elemző egyszerűen átnézi az egyes könyveket, és kihúzza belőlük a főnevek különböző leírásait.

Remélhetőleg ez több mint újdonság, és néhányan valóban hasznosnak találják majd az íráshoz és az ötleteléshez, de egy ügyes kis dolog, amit ki lehet próbálni, hogy összehasonlít két főnevet, amelyek hasonlóak, de valamilyen lényeges módon különböznek – érdekes például a nem: “nő” kontra “férfi” és “fiú” kontra “lány”. Egy kezdeti gyors elemzés alapján úgy tűnik, hogy a szépirodalmi szerzők legalább 4x nagyobb valószínűséggel írják le a nőket (a férfiakkal szemben) szépséggel kapcsolatos kifejezésekkel (a súlyukra, vonásaikra és általános vonzerejükre vonatkozóan). Valójában a “szép” talán a leggyakrabban használt jelző a nőkre az egész világirodalomban, ami eléggé összhangban van a nők általános egydimenziós ábrázolásával sok más médiaformában. Ha valaki további kutatásokat szeretne végezni ebben a témában, szóljon, és sokkal több adatot tudok adni (például a “nő” szóra körülbelül 25000 különböző bejegyzés van – túl sok ahhoz, hogy itt megmutassam).

Az eredmények kékes színe a relatív gyakoriságukat jelzi. Ha egy másodpercre egy elem fölé mozgatod a gépet, a gyakorisági pontszámnak fel kell ugrania. Az “egyediség” szerinti rendezés alapértelmezett, és a Bonyolult Algoritmusomnak™ köszönhetően aszerint rendezi őket, hogy a melléknevek mennyire egyediek az adott főnévhez a többi főnévhez képest (ez valójában elég egyszerű). Ahogy az várható volt, a “Rendezés a használati gyakoriság szerint” gombra kattintva a mellékneveket az adott főnévre vonatkozó használati gyakoriságuk szerint rendezheti.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.