Veri Madenciliği (Data Mining) Nedir?

Yiğit Şener
3 min readJan 7, 2020

Veri madenciliği (data mining), yapılandırılmış ya da yapılandırılmamış datayı anlamak ya da öngörülebilir sonuçlar elde edebilmek için geniş veri kümeleri üzerinde modeller, anomaliler ve korelasyonlar bulma işlemidir. Diğer bir ifade ile veri madenciliği; seçilen veri setlerinin analize uygun bir biçimde hazırlanması ile anlamlı çıkabilecek beklenilen ya da beklenmeyen bilgiye ulaşma sürecidir. Veri madenciliğinin geniş bir yelpazede kullanım alanı bulunmaktadır. Kendi süreçlerine has teknikleri vasıtasıyla gelirleri artırmak, maliyetleri düşürmek, müşteri ilişkilerini geliştirmek, riskleri azaltmak ve daha fazlasına ulaşmak için veri madenciliği yapılır. Geleneksel istatistiksel analizden farklı olarak veri madenciliğinde yarı otomatikleştirme veya tam otomatikleştirme ile teknolojik süreçlerin dahil edilmesi söz konusudur.

Veri Madenciliğinin Tarihine Dair Kısa Bir Giriş

Gizli bağlantıları keşfetmede ve gelecekteki eğilimleri öngörmede veri madenciliğinin uzun bir tarihi bulunmaktadır. Bu terim 1990’lara kadar “veri tabanında bilgi keşfi” olarak adlandırılmaktadır. Ancak veri madenciliği birçok alandan beslenmektedir. Veri madenciliği alanına tarih içerisinde birçok disiplin katkıda bulunmuştur. Örneğin istatistik alanında verideki özelliklerin modellenmesi konusunda erken dönem Bayes teoremi (1700) ve regresyon analizleri (1800) öncü çalışmalar olmuştur. Sinir ağları, kümeleme, genetik algoritmalar (1950), karar ağaçları (1960) ve destek vektör makineleri (1990) gibi bilgisayar bilimlerinde yaşanan değişimler de bu süreçlere etki etmiştir.

Bilgisayar teknolojilerinin gelişmesi ve yaygınlaşmasıyla birlikte veri toplama (data collection), veri depolama (data storage) ve veri işleme (data manipulations) süreçleri ivme kazanmıştır. Veri setlerinin büyüklüğü ve karmaşıklığı arttıkça veri analizi konusuyla paralel olarak gelişen “otomatik veri işleme süreçlerinde” sürekli bir iyileştirmeye gidilmesi veri madenciliği alanının gelişmesine olanak sağlamıştır.

Veri madenciliği üç farklı disiplinden beslenmektedir; istatistik (veriler arasındaki sayısal ilişkilerin ortaya çıkarılması), yapay zekâ (yazılım veya makineler tarafından insan benzeri istihbarat üretme) ve makine öğrenmesi (verilerden öğrenerek tahminler çıkarabilen algoritmalar).

Veri Madenciliği Süreçleri

Data mining Türkçeye veri madenciliği olarak çevrilmiş olsa da temelinde yatan anlam Veri tabanlarında Bilginin Keşfi (The Knowledge Discovery in Databases KDD) olarak temsil edilmesi daha doğru bir kavrayışa olanak vermektedir. Bilginin keşfi yolculuğunda önde gelen metodoloji CRISP-DM (Cross Industry Standard Process for Data Mining) yaklaşımı göre süreç aşağıdaki şekilde ilerlemektedir.

  • Problemi/İşi/Sorunsalı Kavrama (Business Understanding)
  • Veri/Veri Setlerini Anlama (Data Understanding)
  • Datayı Hazırlama/Ön İşleme (Data Preparation)
  • Modelleme (Modeling)
  • Değerleme (Evaluation)
  • Yayınlama/Canlıya Alma (Deployment)

Özet olarak yapılan işlemler üç başlık altında toplanabilir; ön işleme, veri madenciliği ve sonuçların doğrulanması.

Ön İşleme (Pre-processing)

Veri madenciliği algoritmaları uygulanmadan önce hedef veri seti yekpare olmalıdır. Veri madenciliği, yalnızca verilerin içinde bulunan desenleri ya da özellikleri (attribute) ortaya çıkarabileceğinden, hedef data setleri, bu desenleri içerecek kadar geniş ve kabul edilebilir bir süre içerisinde sonuç verebilecek kadar büyüklüğe sahip olmalıdır. Data temizliği, kirlilik ve kayıp verinin nasıl işleneceği (missing value), manipülasyon, data mart ve veri tabanı uygulamaları bu aşamanın içerisindedir.

Veri Madenciliği (Data Mining)

Veri tabanında bilgi keşfi yolcuğu en bilinen altı modelleme seçeneği ile ön planda yer almaktadır. Bunların başlığını vereceğim gelecek yazılarımda ise hepsini tek tek açıklayacağım.

  • Anomali Tespiti (Outlier/Değişim/Sapmalar) — Anomaly Detection
  • Birliktelik Kuralı (Bağımlılık Modellemesi) — Association Rule
  • Kümeleme — Clustring
  • Sınıflandırma — Classification
  • Regresyon — Regression
  • Özetleme — Summarization

Sonuç

Üretilen verinin hacmi gün geçtikçe artmaktadır. Şu anda dijital evrende %90 oranında yapılandırılmamış veri bulunmakta. Ancak unutulmamalıdır ki daha fazla veri daha fazla bilgi anlamına gelmez. Önemli olan onu işleyip yapılandırarak anlamlı bir forma dönüştürebilmektedir.

Diğer Yazılarım:

--

--