Vereinbarungsmerkmals-Extraktion aus einem Text

Ich gehe eine Aufgabe durch, bei der ich das Übereinstimmungsmerkmal der Substantive im Text extrahieren muss ... Das Übereinstimmungsmerkmal wie:

number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate

Gibt es trotzdem solche Features aus dem Text zu extrahieren ....

3
hinzugefügt bearbeitet
Ansichten: 1
Du müsstest wirklich jede Zeile überprüfen, die Substantiv-Tags finden und dann eine Liste von Übereinstimmungs-Features (wie du es nennst) haben, um erneut durchkreuzt zu werden, die in der Zeile gefunden werden.
hinzugefügt der Autor Kazekage Gaara, Quelle
Der stanford-nlp POS-Tagger verwendet den Penn Treebank POS-Tagsatz . Aus diesen Tags können Sie leider nur auf Singular- und Plural-Substantive zugreifen. Entweder müssen Sie nach einem Tagset suchen, das über solche unterstützten Funktionen verfügt, oder manuell einen Parser erstellen, um nach solchen Attributen zu suchen.
hinzugefügt der Autor Kazekage Gaara, Quelle
Und ich denke sogar open-nlp verwendet das gleiche Tagset.
hinzugefügt der Autor Kazekage Gaara, Quelle
Du meinst, ich sollte jede Zeile des Parsers oder den Text selbst überprüfen .. coz die Singular und Plural Substantive kann ich sie durch POS-Tagger extrahieren. Was ist mit den anderen Funktionen, ist es möglich, sie mit NLP Open Source zu extrahieren!
hinzugefügt der Autor S Gaber, Quelle

1 Antworten

Wenn deine Daten Englisch sind, wie deine Kommentare andeuten, dann werden die Substantive niemals Personeninformationen haben, also können wir das diskontieren.

Die Zahl ist einfach, wie von anderen erwähnt wurde: Viele Wortart-Tagger unterscheiden zwischen Singular- und Plural-Substantiven.

Geschlecht und Belebung sind interessanter. Im Englischen sind dies eher semantische als syntaktische Eigenschaften von Substantiven. Nehmen wir zum Beispiel den Satz Die Prinzessin ist im Turm . Wir wissen, dass Prinzessin weiblich ist und nicht aufgrund von Flexionsinformationen belebt, sondern weil wir die Bedeutung des Wortes kennen. Es ist möglich, eine Ontologie aufzubauen, indem man ein großes altes Datenkorpus sammelt und die Pronomen und Anapher darin analysiert. Ihr Algorithmus sucht nach Beispielen wie diesen:

Die Prinzessin sieht sich im Spiegel an.

Die Prinzessin ist im Turm. Sie ist traurig.

Es würde (irgendwie) funktionieren, dass Prinzessin die Vorgängerin von sich selbst und sie ist und die Eigenschaften des Substantivs aus den bekannten Eigenschaften von die Pronomen. Natürlich wird das Problem jetzt zur Referenzauflösung, die nicht trivial ist. Hier sind einige Referenzen aus einer Vorlesung der Universität Edinburgh zum Thema:

  • Denis, Pascal und Baldridge, Jason, 2008. "Spezialisierte Modelle und Weiterempfehlung für Koreferenzierung." In Proceedings der Konferenz über empirische Methoden in der Verarbeitung natürlicher Sprache . ACL, 650-69.
  • Haghighi, Aria und Klein, Dan, 2010. "Koreferenzierung in einem modularen, auf Entitäten zentrierten Modell." In Human Language Technologies: Die Jahreskonferenz 2010 des Nordamerikanischen Kapitels der Association for Computerlinguistik . Los Angeles CA, 385-93.
  • Lappin, Shalom und Leass, Herbert, 1994. "Ein Algorithmus für die Auflösung von Pronominal Anaphora." Computerlinguistik 20: 535-61.
  • Ng, Vincent, 2010. "Supervised Noun Phrase Koreferenzforschung: Die ersten 15 Jahre." In ACL '10: Proceedings der 48. Sitzung der Association for Computerlinguistik. 1396-411.
2
hinzugefügt
Oh, ich denke, das wäre viel einfacher. Es ist eine ziemlich begrenzte Liste von Titeln. Kompiliere es von Hand und lasse deinen Tagger nach ihnen Ausschau halten. Ich weiß nicht, ob es eine vorhandene Open-Source-Implementierung gibt.
hinzugefügt der Autor Tommy Herbert, Quelle
Danke, Tommy Herbert, es ist wirklich hilfreich, was dir erklärt wurde, besonders die Anapher-Lösung ... wie wäre es mit den Namen, die keine Pronomen haben, die damit verbunden sind. Wie können wir herausfinden, es ist Geschlecht und Belebtheit. Was ist mit den Namen, die mit Herrn, Fräulein, Königin, Dame, Herrn beginnen ... gibt es irgendeine Annäherung für diese Wörter oder Open Source, die auf dieser Sache gemacht haben!
hinzugefügt der Autor S Gaber, Quelle