Bu yazımda makine decision trees yani karar ağaçları algoritmasından bahsedeceğim.
Karar ağaçları, en çok kullanılan gözetimli öğrenme algoritmalarındandır. Genel itibariyle ele alınan bütün problemlerin (sınıflandırma ve regression) çözümüne uyarlanabilirler.
Peki bu yöntemin avantajları nelerdir ?
Ağaç yönteminin anlaşılması ve yorumlanması basittir. Bu yapılar görselleştirilebilirler. Çok fazla veri hazırlığına ihtiyaç duymaz, fakat bu modül eksik değerleri desteklemez. Hem sayısal hem de kategorik verileri işleyebilir. İstatistiksel testler kullanılarak bir modelin doğrulanması mümkündür. Karar ağaçları, parametrik olmayan bir yöntem olarak düşünülebilir. Yani uzay dağılımı ve sınıflandırma yapısı hakkında bir yaklaşıma sahip değillerdir.
Bu uygulamaya bir örnek üzerinden bakalım. Mesela cinsiyet (kız/erkek), sınıf (9/10), uzunluk (5/6 fit) olmak üzere üç adet veri grubu olsun. Elimizde de 30 adet öğrenci olsun ve bunların 15'i boş zamanlarında kriket oynasın. Daha sonra veri grupları kullanılarak bu 15 öğrenci belirlenmek isteniyorsa karar ağacı metodu kullanılır.
Karar ağacı metodu, öğrencileri üç değişkenin tüm değerlerine göre ayırır ve değişkeni tanımlar, bu da en iyi homojen öğrenci kümelerini oluşturur.
Şimdi ise bu metodu python üzerinde nasıl olduğuna bakalım;
Elimizde bir veri seti olsun, bu veri seti sosyal medya kayıtlarından derlenmiştir. Bu verileri maaş ve yaşa göre sıralayalım.
Kaynakça;
1-https://scikit-learn.org/stable/modules/tree.html
3-https://www.veribilimiokulu.com/blog/siniflandirma-notlari-16-karar-agaci-python-uygulama/