Binäre Klassifizierung von Webseiten, bei denen Daten in Kategorien sehr ähnlich sind

Ich arbeite an der binären Klassifizierung von Webseiten, die sich auf ein Thema meines Interesses beziehen. Ich möchte klassifizieren, ob die Webseite zu einer bestimmten Kategorie gehört oder nicht. Ich habe Datensätze mit 2 Kategorien positiv und negativ manuell gekennzeichnet. Meine Sorge hier ist jedoch, wenn ich auf Beutel der Wörter von jeder der Kategorien schaue, sind die Eigenschaften sehr ähnlich. Die positiven und negativen Webseiten sind in der Tat sehr nah (inhaltlich).

Noch ein paar Infos - der Inhalt ist auf Englisch, wir machen auch Stoppwörter entfernen.

Wie kann ich dieser Aufgabe nachgehen? Gibt es einen anderen Ansatz, der auf dieses Problem angewendet werden kann? Vielen Dank !

0
Das ist, was ich gerade jetzt bekomme .. viele falsche Positive. Die Webseiten wurden von Experten in jede Kategorie eingeordnet, basieren aber hauptsächlich darauf, ob sie über ein bestimmtes Thema sprechen oder nicht. In meinem Fall leiten die negativen Webseiten meistens Seiten zu den positiven Webseiten weiter. Ich bin gerade dabei, tief zu graben, um zu finden, was noch die 2 Kategorien trennen kann.
hinzugefügt der Autor y2p, Quelle
Auch ich schabe Seiten auf das Thema meines Interesses beschränkt, das begrenzt den Lärm schon ein wenig
hinzugefügt der Autor y2p, Quelle
@aganders3 Nicht "blogspam". Hauptsächlich Webseiten im Zusammenhang mit wissenschaftlicher Forschung. Einige der Funktionen, die Sie erwähnt haben, können nützlich sein, mehr solche Funktionen aus Ihrer Erfahrung. Wird es ausprobieren. Vielen Dank !
hinzugefügt der Autor y2p, Quelle
Kannst du an irgendein anderes Merkmal denken, das sie unterscheiden würde? Was waren Ihre persönlichen Kriterien, um sie in jede Kategorie einzuordnen? Ein Lernalgorithmus kann mit der engen Trennung "zurechtkommen", aber Sie haben wahrscheinlich viele falsche positive und negative Ergebnisse.
hinzugefügt der Autor aganders3, Quelle
Ah, versuchst du "blogspam" auszusieben? Sie könnten versuchen, andere Funktionen wie Artikellänge, Anzahl der Anzeigen auf der Seite, Anzahl der Links innerhalb des Artikels usw. hinzuzufügen. Ich denke nicht, dass Sie eine konkrete Antwort auf StackOverflow erhalten werden, wenn Sie Ihr Problem nicht angeben mit mehr Einzelheiten.
hinzugefügt der Autor aganders3, Quelle

1 Antworten

Sie können Paare aufeinanderfolgender Wörter anstelle von einzelnen Wörtern (Beutel mit Wortpaaren) verwenden. Die Hoffnung ist, dass ein Paar Wörter das Konzept, nach dem Sie suchen, besser erfassen kann. Dreiergruppen von Wörtern könnten als nächstes kommen. Das Problem ist, dass die Dimensionalität sehr hoch ist (N ^ 2). Wenn Sie es sich nicht leisten können, verwenden Sie den Hashing-Trick (siehe Literatur zu Zufallsprojektionen/Hashing) für die Wortpaare, um die Dimensionalität zu begrenzen.

0
hinzugefügt