Welches Vergleichszeichen bei Entscheidungsbäumen?
Moin,
Im Internet sind verschiedene Ansätze für das Erstellen eines Entscheidungsbaum aus einem numerischen Datensatz zu finden.
Bei manchen wird “<” verwendet, andere benutzen “≤”.
Ist es egal für welchen der beiden man sich entschiedet oder hängt es von dem Datensatz ab? Kann man beide Vergleichszeichen innerhalb eines Baumes benutzen?
Grundsätzlich ist das egal. Ein “<” in einer Entscheidung ist ja am Ende nichts anderes als ein “>=” mit vertauschten Ausgängen. Beispiel: “Wenn x < 4, dann links, sonst rechts” ist gleichbedeutend zu “Wenn x >= 4, dann rechts, sonst links”.
Der Einfachheit halber würde ich die Bedigungen innerhalb eines Baumes möglichst einheitlich gestalten, damit wird das Verständnis einfacher. Aber das ist je nach Komplexität und Sachverhalt nicht immer möglich und auch nicht zwingend nötig.
Ich denke, dass der Fall bei mir etwas speziell ist. Ich arbeite nämlich an einem Random Forest.
Um ein Random Forest zu erstellen muss man ja “Bootstrappen”. Beim Bootstrap erzeugt man aus dem originalen Datensatz einen zweiten Datensatz, indem man zum Beispiel ein Sample doppelt nimmt.
Wenn ich aber einen Sample doppelt nehme, dann funktioniert das “<” nicht mehr.
Ich bearbeite mal meine Frage, damit man vielleicht versteht, was ich meine