Comment
Author: Admin | 2025-04-28
Ungültigen KlassifizierungenData Mining Klassifikation: Gütemaße für die KlassifikationDurch die Überprüfung der Klassifikationsregeln anhand eines Testdatensatzes mit bekannter Klassenzugehörigkeit kann die Klassifikationsgüte angegeben werden. Wie auch bei den Gütemaßen zur Regression ist für die Beurteilung der Güte auch die Kompaktheit des Modells (z. B. die Anzahl der Regeln) und die Interpretierbarkeit der Regeln ein wichtiger Aspekt. Die Klassifikationsgenauigkeit ist dabei der Anteil der korrekten Klassenzuordnungen im Testdatensatz bezeichnet. Den Anteil der falschen Klassenzuweisungen nennt man Klassifikationsfehler.Jetzt unverbindlich anfragenData Mining Klassifikation: Entscheidungsbaum (Decision Tree)Ein Entscheidungsbaum ist ein Verfahren zur Klassifikation. Entscheidungsbäume lassen sich gut visualisieren, können allerdings auch sehr komplex werden. Bei einem Entscheidungsbaum kann man jede Entscheidung bewerten bzw. gewichten. Dies spielt insbesondere dann eine Rolle, wenn die Entscheidungen unterschiedliche Kosten haben. Insgesamt werden mit einem Entscheidungsbaum alle möglichen Alternativen dargestellt.Ein Entscheidungsbaum ist immer von oben nach unten aufgebaut. Bei jeder Entscheidungsalternative verzweigt sich der Baum um eine Ebene nach unten. Am unteren Ende des Entscheidungsbaumes stehen schließlich die Blätter, in den Blättern sind die Entscheidungen zu sehen.Beispiel aus der Beratungspraxis: Churn Modelling eines TelekomunikationsanbietersEin Anbieter für Telekommunikation möchte herausfinden, welche Kunden abwandern, d.h. ihre bestehenden Verträge kündigen. Es stehen dabei 9990 Datensätze von Kunden zur Verfügung. Insgesamt sind 21 der 9990 Kunden abgewandert. In dem Datensatz stehen außerdem Informationen zum Vertragsbeginn, zum durchschnittlichen monatlichen Grundpreis, dem Alters des Kunden sowie die Art des Vertrags (4G, Telefon, Glasfaser oder Festnetz) und die Anzahl der Supportkontakte im letzten Jahr zur Verfügung.Das Ziel der Auswertung besteht darin, mögliche Abwanderer in Zukunft bereits frühzeitig zu identifizieren und schließlich durch geeignete Maßnahmen eine Kündigung abzuwenden.Datensatz Churn ModellingLösungsvorschlag: EntscheidungsbaumMit 10-facher Kreuzvalidierung wird zuerst ein Entscheidungsbaum generiert. Da nur wenige Kunden abwandern, wird eine balancierte Stichprobenziehung gewählt. Der Entscheidungsbaum soll dabei auf maximal 20 Blätter beschränkt sein, um eine unnötige Komplexität zu vermeiden. Mit Pruning (Beschneiden) kann ebenfalls eine Optimierung hinsichtlich Klassifikationsgüte und Komplexität erreicht werden.Entscheidungsbaum KundenabwanderungDen Entscheidungsbaum liest man zuerst von oben nach unten. Blau hinterlegte Rechtecke zeigen dabei die Variablen an. An den Verbindungen zur nächsten Ebene sind die Entscheidungsregeln zu finden. Als wichtigstes Kriterium für die Abwanderung zeigt sich die Anzahl der Service Anrufe. Übersteigt die Anzahl der Anrufe 9,5, also ab 10 Anrufen, klassifiziert man den Kunden als Abwanderer. Hier endet der Entscheidungsbaum dann bereits in einem Blatt (grau ausgefülltes Rechteck). Bei 9 oder weniger Serviceanrufen unterteilt sich der Entscheidungsbaum allerdings weiter. Als nächste Kriterien sind dann die durchschnittliche Rechnungshöhe sowie die Anzahl
Add Comment