Veri Madenciliği

Günümüz teknoloji çağında hayatımızı idame ettirebilmek için birçok gelişime ihtiyaç duyuyoruz. Örneğin dijital dünyada sakladığımız veriler ve bu yığınlar arasından ihtiyaç duyduğumuz veriyi çekip alabilmek. Mantık çerçevesine düşündüğümüzde bunlar zorun çok daha ötesinde imkansız gibi geliyor. Lakin madencilik ile elde edilmiş verilerden kazanımları göz önünde bulundurduğumuzda büyük şirketler sadece kendi bünyesindeki verileri değil aynı zamanda dışarıdan gelen verileri de koruyabilmek ve işleyebilmek için çok çalışması gerekiyor.

Aşağıda veri madenciliği konusunda 5 önemli başlık belirtilmiş, fakat ilk olarak isterseniz veri madenciliği nedir? Bu sorunun yanıtını verelim.

Veri Madenciliği Nedir?

Veri madenciliğini anlatmaya çalışırken karmaşık bir açıklama yapmamak gerekiyor, özellikle de ilk kez bunun ne anlama geldiğini merak edenler için ne kadar açık ve basit bir tanımlama yaparsak o kadar iyi olacaktır.

Bir kurumdaki milyonlarca verinin içerisinden ihtiyaç duyulan verinin alınarak işlenmesine veri madenciliği denilmektedir. Bu işlem sayesinde veriler arasındaki ilişkileri ortaya koyabilmek ve ihtiyaç duyulması halinde kullanılmak üzere gelecekteki verilere yönelik tahminlerde bulunabilmek mümkün olacaktır. veri madenciliği milyonlarca ve milyarlarca veri üzerinde çalışabilir. Yani buradaki amaç kurumlardaki karar destek mekanizmasının hızlı bir şekilde devreye girmesi ve işlem süreçlerinin hızlandırılmasıdır.

Veri Madenciliği Yöntemleri

Veri madenciliği yapılırken iki ana başlık üzerinde durulması gerekir. Bunlardan birincisi tahmin edici ikincisi ise tanımlayıcıdır.

Tahmin edici modeldeki amaç, sonuçların bilinen verilerden yola çıkılarak bir modelin geliştirilmesi ve ortaya çıkan bu modelden fayda sağlanarak sonuçları bilinmeyen veri kümleri için sonuçların tahmin edilmesinin sağlanmasıdır.

Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır.

Veri Madenciliğinde Kullanılan Yöntemler

Veri madenciliği yönetimi kendi içerisinde ikiye ayrılır. Bunlar denetimli ve denetimsiz yöntemlerdir.  Veri madenciliğinde kesin olduğundan emin olunan hedefler için denetimli ifadesi kullanılır. Eğer hedefte belirsizlik söz konusu olursa bu durumda denetimsiz ifadesine yer verilir.

Tanımlamasından da anlaşılacağı üzere bu ifadeler birbirinin tersidir. Bu iki yöntemler sürecin tamamı için değerlendirilmeye alındığında şu sonuçlar ortaya çıkar.

Denetimsiz yöntemde verinin anlaşılması ve keşfedilmesine yönelik çalışma yapılır ve bu sayede fikir elde edilir.

Denetimli yöntemde ise veriden kesin sonuç çıkarılmaya çalışılır. Bunun için denetimsiz bir yöntemle elde edilmiş olan sonucu denetimli olan yöntemde teyit etmek gerekir. Bu sayede elde edilmiş olan verilerin doğruluğu ve gerçekliği belirlenmiş olacaktır.

Denetimsiz yöntemlere örnek verecek olursak şu şekilde sıralayabiliriz.

  • Faktör Analizi
  • Temel Bileşenler Analizi,
  • Hiyerarşik Kümeleme,
  • K-En Yakın Komşuluk,
  • K-Ortalamalar Kümelemesi,
  • İki Aşamalı Kümeleme,
  • Kohonen Ağları
  • Kendi Kendini Düzenleyen Haritalar (
  • Aykırılık Saptama
  • Özellik Seçimi

Denetimli yöntemlere örnek verecek olursak şu şekilde sıralayabiliriz.

  • Ki-Kare Otomatik Etkileşim Detektörü
  • Ayrıntılı Ki-Kare Otomatik Etkileşim Detektörü,
  • Sınıflama ve Regresyon Ağacı,
  • Hızlı, Yansız, Etkili İstatistik Ağacı,
  • C5.0 ile Yapay Sinir Ağları,
  • Doğrusal Regresyon Analizi ve Lojistik Regresyon Modelleri
  • Birliktelik Kuralları
  • Genelleştirilmiş Kural Çıkarsama
  • Apriori ve CARMA algoritmaları

Veri madenciliği ile ilgili kullanılan pek çok yöntemin yanı sıra her geçen günde yeni yöntemler ve algoritmaların eklendiğini görebiliyoruz. Bu yöntemlerden bir kısmı onlarca yıldır kullanılmakta olan klasik teknikler diyebileceğimiz ağırlıklı olarak istatistiksel yöntemlerdir.

Veri madenciliğinde kullanılan modeller işlevlere göre 3 grupta toplanmaktadır. Bunlar ise şöyledir:

1- Sınıflama (Classification) ve Regresyon (Regression),

2- Kümeleme (Clustering),

3- Birliktelik Kuralları (Association Rules)’dır.

Veri-Madenciligi1
Veri Madenciliği

Veri Madenciliği Eğitimi

Veri madenciliği, geniş veri kümelerinden anlamlı bilgiler çıkarmak için kullanılan süreçtir. Her geçen saniyede milyarlarca veri üretiliyor ve şirketler bu verileri potansiyel müşterileri anlamak ve iş için büyümeyi yönetmek için kullanıyor.

Veri madenciliği, çeşitli endüstrilerde yaygın olarak kullanılmaktadır. Bir Veri Bilimcisi olarak başarılı bir kariyer geliştirmek için veri madenciliğini anlamak çok önemlidir. Bu veri madenciliği öğreticisi, uygulamalı uygulamalarla birlikte Anomali algılama ve Regresyon Analizi gibi Veri Madenciliği kavramları hakkındadır. Veri madenciliği eğitimi, temel bir genel bakış ve veri madenciliği ile ilgili terminolojiler ile başlar ve daha sonra kademeli olarak sınıflandırma, regresyon ve tahmin gibi konuları kapsayacak şekilde ilerler.

Weka İle Veri Madenciliği       

Weka, veri madenciliği görevleri için makine öğrenimi algoritmaları koleksiyonunu içeren bir veri madenciliği görselleştirme aracıdır. GNU Genel Kamu Lisansı altında verilen açık kaynaklı bir yazılımdır. Sonuç bilgilerini grafik, ağaç, tablo vb. şeklinde sağlar.

Weka, veri dosyasının Nitelik-İlişki Dosya Biçimi (ARFF) dosyasında olmasını bekler. Bu nedenle, Weka’da madenciliğe başlamadan önce herhangi bir dosyayı ARFF’ye dönüştürmemiz gerekiyor.

Weka’nın Özellikleri

Veri Ön İşleme: Veri toplama ve seçim aşamasında verilerin temizlenmesidir. Eksik alanlara varsayılan değeri kaldırır/ekler ve çakışmaları çözer.

Veri Sınıflandırma ve Tahmin: Nesneler arasındaki ilişkilere göre verileri sınıflandırır ve veri etiketini tahmin eder. Örneğin, A Bank mevcut kredi verilerine dayanarak müşteri etiketini ‘riskli’ veya ‘güvenli’ olarak sınıflandırır ve tahmin eder.

Kümeleme: Farklı grupları keşfetmek için kullanılan, küme halinde ilgili veri grubu. Örneğin, elimizde hava durumu verileri var ve buna göre dışarıda oynayıp oynamamaya karar vermek istiyoruz, böyle bir durumda Weka aracını kullanarak genel verileri görselleştirebilir ve çizelgelere göre karar verebiliriz.

Sıcaklık seçilen özelliktir ve oynamaya, yani dışarıda oynayıp oynamamaya karar vermemiz gerekiyor. Weka, mevcut veriler üzerinde veri madenciliği uygular ve sağ köşe grafiğinde görüntülenen sonucu üretir (mavi = dışarıda oyna ve kırmızı = oynama). Grafik, sıcaklığa göre oynatma özelliğini görselleştirmek için kullanılır, bu nedenle yukarıdaki “eğer sıcaklık 64 ila 75 ise => dışarıda oyna” uyarınca.

Son 10 yıla bakıldığında piyasa da hemen her alanda farklı veri madenciliği kullanılmaktadır. Veri madenciliğinde her türlü elektronik veriler bir disiplin haline getirilmiştir. Meselâ pazarlama sektöründe kullanılan veri madenciliği müşteri satın alma alışkanlıklarının tespit edilmesini sağlar.

Veri madenciliğinde izlenecek ilerleme süreci şu şekilde ifade edilmektedir.

  • Veri yığınını elde etme ve güvenliğini sağlama
  • Veri Temizleme
  • Veri Bütünleştirme
  • Veri İndirgeme
  • Veri Dönüştürme
  • İlgili Veri Madenciliği Algoritmaları Uygulama
  • Sonuçları ilgili yazılım dillerinde test ve eğitim aşamasına sokma  
  • Sonuçların değerlendirilmesi ve sunulması
Eylül 30, 2021

Siber Saldırısı

Eylül 24, 2021

Loglama Nedir?

Eylül 21, 2021

Siber Güvenlik Uzmanı

YORUMLAR

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir