Popisující slova

Nápad na engine pro popisující slova vznikl, když jsem vytvářel engine pro příbuzná slova (je to něco jako tezaurus, ale poskytuje mnohem širší soubor příbuzných slov než jen synonyma). Když jsem si hrál s vektory slov a rozhraním API „HasProperty“ služby conceptnet, trochu jsem se pobavil, když jsem se snažil získat přídavná jména, která běžně popisují dané slovo. Nakonec jsem si uvědomil, že existuje mnohem lepší způsob, jak to udělat: parsovat knihy!“

Počátečním korpusem byl Project Gutenberg, ale parser byl stále nenasytnější a nakonec jsem ho krmil někde kolem 100 gigabajtů textových souborů – většinou beletrie, včetně mnoha současných děl. Parser prostě prochází každou knihu a vytahuje z ní různé popisy podstatných jmen.

Doufejme, že to nebude jen novinka a že to některým lidem bude skutečně užitečné pro jejich psaní a brainstorming, ale jedna šikovná drobnost, kterou lze vyzkoušet, je porovnávání dvou podstatných jmen, která jsou si podobná, ale v něčem podstatném se liší – zajímavý je například rod: „žena“ versus „muž“ a „chlapec“ versus „dívka“. Při prvotní rychlé analýze se zdá, že autoři beletrie nejméně 4x častěji popisují ženy (na rozdíl od mužů) výrazy souvisejícími s krásou (týkajícími se jejich váhy, rysů a celkové atraktivity). Ve skutečnosti je „krásná“ pravděpodobně nejpoužívanějším adjektivem pro ženy v celé světové literatuře, což je zcela v souladu s obecným jednorozměrným zobrazováním žen v mnoha jiných mediálních formách. Pokud by se někdo chtěl pustit do dalšího výzkumu této problematiky, dejte mi vědět a já vám mohu poskytnout mnohem více údajů (například pro slovo „žena“ existuje asi 25 000 různých záznamů – je jich příliš mnoho na to, abych je zde uváděl).

Modrá barva výsledků představuje jejich relativní četnost. Na položku můžete na vteřinu najet myší a mělo by se zobrazit skóre četnosti. Řazení podle „jedinečnosti“ je výchozí a díky mému složitému algoritmu™ je řadí podle jedinečnosti přídavných jmen k danému podstatnému jménu vzhledem k ostatním podstatným jménům (je to vlastně docela jednoduché). Jak se dalo očekávat, můžete kliknutím na tlačítko „Seřadit podle četnosti použití“ přídavná jména seřadit podle četnosti jejich použití u daného podstatného jména.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.