1459191241582

Milyarlarca insanın bilgisayar sistemlerini kullanmaya başladıkları ilk günden bugüne bilgisayar sistemlerinde yapmış oldukları veri paylaşımını hayal edin sayabilir misiniz,  peki tahmin edebilir misiniz? Biriken bunca veri nasıl saklanıyor? Bu verilerin doğruluğundan nasıl emin olabiliriz? Bu verileri bilgiye ve anlamlı hale nasıl dönüştürebiliriz?

Son yıllarda ölçüm cihazlarının artmasına paralel olarak veri sayısının ve türlerinin arttığını ve veri tabanlarının daha fazla veriyi saklayabilecek boyutlara ulaştığını, aynı zamanda bilgisayar sistemlerindeki gelişme ile veriye ulaşmanın kolaylaştığını görmekteyiz. Bu sayede doğru ve daha detaylı bilgiye ulaşmamız mümkün hale gelmiş fakat başka bir sorunu ortaya çıkarmıştır. Bu sorun oluşan bu büyük sayısal veri yığınlarının yönetilmesi ve anlamlı hale getirilmesi sorunudur. Veri kendi başına değersizdir. İstediğimiz amacımız doğrultusunda bilgidir. Bilgi bir amaca yönelik işlenmiş veridir ve veriyi bilgiye çevirmeye veri analizi denir. Bilgi de bir soruya yanıt vermek için veriden çıkardığımız olarak tanımlanabilir. Veri sadece sayılar veya harfler değildir; veri, sayı ve harfler ve onların anlamıdır. Bu veriler belli bir amaç doğrultusunda işlendiği zaman anlamlı hale gelmektedir. İşte ham veriyi bilgiye veya anlamlı hale dönüştürme işini Veri Madenciliği ile yapabiliriz.

Veri madenciliği; önceden bilinmeyen, geçerli ve uygulanabilir bilginin veri yığınlarından dinamik bir süreç ile elde edilmesi olarak tanımlanabilir. Bu süreçte kümeleme, veri özetleme sınıflama kurallarının öğrenilmesi, bağımlılık ağlarının bulunması, değişkenlik analizi ve anomali tespiti gibi farklı birçok teknik kullanılmaktadır. Veri madenciliği ile büyük veri yığınlarından oluşan database sistemleri içerisinde gizli kalmış bilgilerin çekilmesi sağlanır. Bu işlem, istatistik, matematik disiplinleri, modelleme teknikleri, database teknolojisi ve çeşitli bilgisayar programları kullanılarak yapılır. Veri madenciliği büyük miktarda veri inceleme amacı üzerine kurulmuş olduğu için veri tabanları ile yakından ilişkilidir. Gerekli verinin hızla ulaşılabilecek şekilde amaca uygun bir şekilde saklanması ve gerektiğinde hızla ulaşılabilmesi gerekir. Günümüzde yaygın olarak kullanılmaya başlanan veri ambarları günlük kullanılan veri tabanlarının birleştirilmiş ve işlemeye daha uygun bir özetini saklamayı amaçlar.

Alternatif olarak Veri Madenciliği aslında bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir. Bilgi keşfi sürecinin aşamaları aşağıda verilmiştir:

1-Veri Temizleme (gürültülü ve tutarsız verileri çıkarmak)

2-Veri Bütünleştirme (birçok veri kaynağını birleştirebilmek)

3-Veri Seçme (Yapılacak olan analiz ile ilgili olan verileri belirlemek )

4-Veri Dönüşümü (Verinin Veri Madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek)

5-Veri Madenciliği (Veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)

6-Örüntü Değerlendirme (Bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak)

7-Bilgi Sunumu (Madenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek).

Neden Gerekli ?

Hızla artan veri kayıtları (GB/saat), otomatik istasyonlar, uydu ve uzaktan algılama sistemleri, teleskopla uzay taramaları, gen teknolojisindeki gelişmeler, bilimsel hesaplamalar, benzetimler, modeller Veri Madenciliği’ni zorunlu kılmıştır. Teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının artması, yeni veri toplama yolları, otomatik veri toplama aletleri, veritabanı sistemleri, bilgisayar kullanımının artması, büyük veri kaynakları (İş dünyası: Web, e-ticaret, alışveriş, hisse senetleri…), bilim dünyası (Uzaktan algılama ve izleme, bioinformatik, simülasyonlar..) toplum (haberler, dijital kameralar, YouTube, Facebook…) neden Veri Madenciliği sorusuna cevap vermektedir.

Yapılan Çalışmada Veri Madenciliği Süreci

  • Veri Toplama: Veri madenciliğinin ilk aşaması veri toplamadır. Bu aşamada amaç veri tabanlarında veya veri ambarlarında saklanan verilerden uygun olanları yapılacak uygulama için çekmektir.
  • Veri Temizleme ve Dönüştürme : Veri temizleme işleminin amacı, veriler içindeki uygun olmayan veya hatalı girilmiş verileri ayıklamaktır. Veri dönüşümünün amacı ise, kaynak veriyi farklı formatlara veya değerlere dönüştürmektir.
  • Model Kurma: Model kurma veri madenciliğinin çekirdeğidir. Modeli doğru bir şekilde kurabilmek için yapılacak projenin amacı çok iyi bir şekilde kavranmış olmalıdır. Her amaç ile ilgili birden fazla algoritma mevcuttur. Bu durumda eldeki veriler üzerinde uygun algoritmaların hepsi çalıştırılır ve en doğru sonucu veren algoritma kullanılır.
  • Model Değerlendirme: Eldeki veriler üzerinde uygun algoritmalar çalıştırıldıktan sonra en doğru sonucu hangisinin verdiğini bulmak için çeşitli yöntemler mevcuttur. Örneğin, tahmine yönelik sayısal veriler varsa ve kullanılan modelin doğruluğu test edilmek isteniyorsa MAPE (Mean Absolute Percentage Error) yöntemini kullanabilir.
  • Raporlama: Raporlama veri madenciliği bulgularını göstermek için önemli bir dağıtım kanalıdır. Birçok veri madenciliği aracı elde edilen modelden kullanıcıların daha önceden tanımladığı raporları göstermek için gerekli araçlara sahiptir.
  • Değerlendirme(Scoring): Veri madenciliği projesinde, örüntüleri bulmak çalışmanın yarısını oluşturur. Esas amaç, değerlendirme için modeli kullanmaktır. Değerlendirme veri madenciliği terminolojisinde scoring olarak da adlandırılır. Değerlendirme yapabilmek için eğitilen model ve yeni durumları içeren veri setinin olması gerekir. Böylece, eğitilen model kullanılarak yeni durumlar için tahminde bulunulabilir.
  • Uygulama Entegrasyonu: Bu aşamada kurulan veri madenciliği modeli gerçek zamanlı olarak çalıştırmak üzere geliştirilen uygulama içerisine gömülür.
  • Model Yönetimi: Her bir veri madenciliği modeli bir yaşam döngüsüne sahiptir. Bazı uygulamalarda işler, özellikler durağandır ve modelin yeniden eğitilmesine gerek yoktur. Fakat birçok iş özellikleri sık sık değişir. Yeni veriler geldikçe modelin yeniden eğitilmesine gerek vardır. Yani bir model kurulduktan sonra eğer çok sık olarak veri setinde değişiklik yapılıyorsa model sık sık güncellenmelidir.

Veri Madenciliği Uygulama Alanları

Pazarlama

  • Müşterilerinin satın alma alışkanlıklarının belirlenmesi
  • Müşterilerin demografik özellikleri arasındaki bağlantıların ortaya konması
  • Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması
  • Pazar sepeti analizi
  • Müşteri ilişkileri yönetimi
  • Müşteri değerlendirme
  • Satış tahmini

Bankacılık

  • Farklı finansal göstergeler arasındaki gizli korelasyonların tespiti
  • Kredi kartı dolandırıcılıklarının tespiti
  • Kredi kartı harcamalarına göre müşteri guruplarının belirlenmesi
  • Kredi taleplerinin değerlendirilmesi

Sigortacılık

  • Yeni poliçe talep edecek müşterilerin tahmin edilmesi
  • Sigorta dolandırıcılıklarının tespit edilmesi
  • Riskli müşteri guruplarının belirlenmesi

Elektronik Ticaret

  • Saldırıların çözümlenmesi
  • e-CRM uygulamalarının yönetimi
  • WEB sayfalarına yapılan ziyaretlerinin çözümlenmesi
  • Kullanıcı davranışlarına göre web sitesinin yenilenmesi

Telekomünikasyon

  • İletişim ağlarında sorunlu bölgelerin tespiti
  • Kaçak hat kullanımlarının belirlenmesi
  • Kullanıcı davranışlarının belirlenmesi
  • Müşteri davranışlarına göre yeni hizmetlerin sunulması

Tıbbi Araştırmalarında

  • DNA içerisindeki genlerin sıralarının belirlenmesi
  • Protein analizlerinin yapılması
  • Hastalık haritalarının hazırlanması
  • Hastalık tanıları
  • Sağlık politikalarına yön verilmesi

Bunların dışında da veri madenciliğinin faydalı olabileceği ve kullanılabileceği alanlardan bazıları şunlardır:

  • Taşımacılık ve ulaşım
  • Turizm ve otelcilik
  • Belediyeler
  • Eğitim
  • Bilim ve mühendislik

Veri Madenciliği uygulamaları yapmak için bilgisayar programlarına ihtiyaç vardır. Bu programlar içerisinde veri kümeleme, karar ağaçları, bayes sınıflandırıcılar, apriori yöntemi gibi birçok algoritma mevcuttur. Algoritmalar sayesinde işlenen verilerden, bilgi çıkarımı yapılabilmektedir. Bilgi ve tecrübeyi birleştirmek için Veri Madenciliği konusunda geliştirilmiş yazılımların kullanılması gerekmektedir.

Veri Madenciliği Örnek Programlar

RAPİDMİNER (YALE) : Amerika’da bulunan YALE üniversitesi bilim adamları tarafından Java dili kullanılarak geliştirilmiştir. YALE’de çok sayıda veri işlenerek, bunlar üzerinden anlamlı bilgiler çıkarılabilir.

WEKA: WEKA bir proje olarak başlayıp bugün dünya üzerinde birçok insan tarafından kullanılmaya başlanan bir Veri Madenciliği uygulaması geliştirme programıdır.

R: Grafikler, istatistiksel hesaplamalar, veri analizleri için geliştirilmiş bir programdır.

Büyük miktarda veri içerisinden, gizli kalmış, değerli, kullanılabilir bilgileri açığa çıkarmak ve stratejik karar destek sağlamak amacıyla kullanılan Veri Madenciliği; büyük miktarda veriyle ilgili sorun alanlarına yanıt bulmakta ve analistine, iş yapma aşamasında oluşan veriler arasındaki şablonları ve ilişkileri bulması konusunda yardım etmektedir. Veri madenciliği kendi başına bir çözüm olmamakla birlikte çözüme ulaşmak için verilecek karar sürecini destekleyen, problemi çözmek için gerekli bilgileri sağlamaya yarayan bir araçtır.

 

FEYZA NUR KARAKOÇ

FATİH ÜNİVERSİTESİ TANITIM VE MEDYA BİRİM BAŞKANI