Beschreibende Wörter

Die Idee für die Engine für beschreibende Wörter kam mir, als ich die Engine für verwandte Wörter baute (sie ist wie ein Thesaurus, bietet aber eine viel breitere Palette von verwandten Wörtern und nicht nur Synonyme). Während ich mit Wortvektoren und der „HasProperty“-API von conceptnet herumspielte, machte ich mir einen Spaß daraus, die Adjektive zu ermitteln, die ein Wort üblicherweise beschreiben. Schließlich wurde mir klar, dass es einen viel besseren Weg gibt, dies zu tun: Parsen von Büchern!

Projekt Gutenberg war der ursprüngliche Korpus, aber der Parser wurde immer gieriger und ich fütterte ihn schließlich mit etwa 100 Gigabyte Textdateien – hauptsächlich Belletristik, darunter viele zeitgenössische Werke. Der Parser durchsucht einfach jedes Buch und zieht die verschiedenen Beschreibungen von Substantiven heraus.

Hoffentlich ist es mehr als nur eine Neuheit und einige Leute finden es tatsächlich nützlich für ihr Schreiben und Brainstorming, aber eine nette kleine Sache, die man ausprobieren kann, ist, zwei Substantive zu vergleichen, die ähnlich sind, sich aber in irgendeiner signifikanten Weise unterscheiden – zum Beispiel ist das Geschlecht interessant: „Frau“ versus „Mann“ und „Junge“ versus „Mädchen“. Eine erste schnelle Analyse zeigt, dass Autoren von Belletristik Frauen (im Gegensatz zu Männern) mindestens 4x häufiger mit Begriffen beschreiben, die sich auf die Schönheit beziehen (in Bezug auf ihr Gewicht, ihre Merkmale und ihre allgemeine Attraktivität). Tatsächlich ist „schön“ möglicherweise das am häufigsten verwendete Adjektiv für Frauen in der gesamten Weltliteratur, was sich mit der allgemeinen eindimensionalen Darstellung von Frauen in vielen anderen Medienformen deckt. Falls jemand weitere Nachforschungen anstellen möchte, kann ich Ihnen weitere Daten zur Verfügung stellen (zum Beispiel gibt es etwa 25000 verschiedene Einträge für „Frau“ – zu viele, um sie hier zu zeigen).

Die blaue Farbe der Ergebnisse stellt ihre relative Häufigkeit dar. Wenn Sie den Mauszeiger kurz über einen Eintrag bewegen, wird die Häufigkeit angezeigt. Die Sortierung „Einzigartigkeit“ ist voreingestellt, und dank meines komplizierten Algorithmus™ werden sie nach der Einzigartigkeit der Adjektive für dieses bestimmte Substantiv im Vergleich zu anderen Substantiven geordnet (das ist eigentlich ziemlich einfach). Wie zu erwarten, können Sie auf die Schaltfläche „Nach Verwendungshäufigkeit sortieren“ klicken, um die Adjektive nach ihrer Verwendungshäufigkeit für dieses Substantiv zu sortieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.