Veri Madenciliği Bilgi Keşfi Nedir? Bilgi Keşfi Süreçleri Nelerdir?

Veri,Bilgi,Enformasyon ve Bilgi Keşfi Nedir?
Veri : Uygulamar ya da diğer adı ile programlarda kullanılan işlenmemiş sayım,ölçü gibi tek başına anlamı olmayan,varlık bildiren her şey olarak adlandırılır.
Enformasyon :İşlenmiş veri,bir anlamı olup tek başına anlamı olmayan verinin işlenmesi
Bilgi : Enformasyon haline dönüştürülmüş gerçeklerin analiz edilmesi ve sentezlenmesi sonucu çıkarması,bireyin onu algılaması,sınıflandırma yaptığımızda bilgiye ulaşmış oluyoruz.
Örn:
Köpektir.
Zeynep her yıl tüm satış temsicilerinden daha fazla satış gerçekleştirir.

Bilgi keşfi ise à Veriden bilgiye ulaşmamızı sağlayan süreç veya pratikte veri madenciliği bilgi keşfi ile eş anlamlıdır.Sorgulama ya ada basit istatistik yöntemler veri madenciliği değildir.
Bilgi Keşfi Süreci
1-)Ön İşleme Süreçleri
2-)Veri Seçme
3-)Veri Dönüştürme
4-)Veri İndirgeme
5-)Veri Madenciliği
6-)Değerlendirme ve Yorumlama


1-)Ön İşleme Süreçleri
En çok zaman ve işlem gerektiren sonucu direk etkileyen adımdır.Gürültülü,eksik,tutarsız ve hatalı verileri küme içerisinden çıkarmak ya da düzenlemek gereklidir.Veri ön işleme sürecinde birden çok teknik kullanılmaktadır.
Veri Temizleme:Gereksiz verilerin atılması àÖğrenci ismi not ortalamasını etkilemez o zaman atalım.
Tekrarlayan kayıtların atılması gibi kullanacağımız modele uygun olarak temizleme yapmalıyız.(Noktaların,virgüllerin atılması duygu analizi için önemli olduğundan atmak gereksizdir.)
Veri Birleştirme:Farklı veritabanlarındaki ya da kaynaktaki verileri bir arada tutmak için veri ambarı oluşturulur.Böylece veriler birleştirilir.
Veri ambarı:Farklı veritabanlarını bir araya getirilerek toplandığı yer.
1.      Veritabanı                                                           2.Veritabanı
Ogr_kimlikno                                                Ogr_Tcno
12345678901                                                 12345678901
            …                                                                …

(Farklı olan sütünlar,aynı öğrencileri içerdiği için bunları tek bir sütün altında toplayıp farklılığı azaltmalıyız.)
  
2-Veri Seçme
Anlamlı sonuç alınabilecek değişkenlerin belirlenmesi,seçilmesi ve gereksiz özelliklerin arındırılması
Örn:
Ev alırken birkaç özelliğin fiyatı etkilememesi gibi
3-)Veriyi Dönüştürme
Verilerin kullanacağımız formata çevrilmesi.
JPG àPNG , CSV Formatına Dönüştürme , Veri tipi dönüşümü(Object à float64) , Görüntülerin boyutlarının eşit hale getirilmesi
 
4-)Veriyi indirgeme
Veriler işleme alınırken bütün özellikleri dikkate alındığında işlem süresi uzun olabilmektedir.Bu nedenle,verilerin çıkarıldığında sonucu etkilemeyecek bazı özelliklerin çıkarılarak,genel olarak tüm verinin yerini tutabilecek hale dönüştürülmesidir.
Veri setlerini küçülterek tekrar eden veriyi yazmamak gibi
Film sitelerinde 5 yıldız ve 10 yıldızları özet haline getiri eşitlenmesi gibi
Bu işlem genel olarak:
·         Sıkıştırma
·         Sayısının azaltılması
·         Ayrıştırma
·         Boyutunun indirgenmesi
1000Gb resim var. à Sıkıştırma gerekli,daha az veriyle işlem yapmalıyım.(Çok da az olmamalı.)
5-Veri Madenciliği
Görüldüğü gibi bilgi keşfi sürecinden bu aşamaya kadar veriler üzerinde anlamsal ve ilişkisel olarak herhangi bir işlem yapılmamaktadır.
Veriler temizlenmiş,gerektiği yerde birleştirilmiş ve indirgenmiş olarak işlenmeye hazır hale getirilmiştir.
Bunun sonucunda veri madenciliği ile bu veriler işleme tabi tutularak ilişkisel ve anlamsal değer taşıyan sonuçlar üretilmektedir.
Bu işlemlerin yapılması için veri madenciliği modelleme yöntemleri gerçekleştirilmiştir.
Bu yöntemler 3 gruba ayrılır:
A.    Sınıflama ve Regresyon
B.     Kümeleme
C.     Birliktelik Kuralları ve Ardışık Zamanlı Örüntüler
A.Sınıflama ve Regresyon
Özelliklere bakarak kategorilere ayırma işlemine sınıflama,süreklilik gösteren değerlerin tahmininde yapılan işleme ise regresyon denir.Yani
Sınıfların özellikleri önceden belirlenmeli ona göre gelen veriyi ayırt etmeliyiz.Ama hiçbir bilgi vermeden tahmin etme(ev fiyat tahmini gibi) regresyon adını alır.
Örn:
Spam verilerini önceden belirtmeliyim.Gelen veriye göre spamdır veya spam değildir.Şeklinde sınıflandırmış oluyorum.
B.Kümeleme
Nesnelerin kendini temsil eden sayısal değerlerini göz önüne alarak bu değerlerin birbirlerine uzaklık ve yakınlıklarına göre gruplandırılmasıdır.
Kümeleme işleminde amaç,büyük veri içerisinden benzer özellik taşıyanların bir arada bulunduğu kümeyi bularak veri analizi aralığını azalmaktır.
C.Birliktelik Kuralları ve Ardışık Zamanlı Örüntüler
Örnek vererek açıklamak gerekirse,bir marketin alışveriş faturasına bakarak kişilerin genel olarak aldığı ürünleri görebilir ve bu kişilere uygun olarak markette satılan ürünlerin yerleştirilmesi yapılabilir.
Ya da
Bir kişinin önceden ziyaret ettiği web sayfasındakileri reklam halinde kişiye gösterilmesidir.










6-Değerlendirme ve Yorumlama
Elde edilen anlamlı örüntülerin problemin çözümünde yeterli olup olmadığı,doğrı ve tutarlı sonuçlar verip vermediği,farklı modellerde ve tekniklerde uygulanan sonuçların kıyaslanarak probleme uygun model ve tekniğin açıklanmasıdır.
Yapılan işlem sonucunda elde edilen çıktıların kullanıcıya uygun bilgi çıkarımı yapacak şekilde gerçekleştirilir.

Yorumlar

Bu blogdaki popüler yayınlar

QR Kod nedir? Ne İşe Yarar? Nerelerde Kullanılır? Nasıl Taranır?

Takviyeli/Pekiştirmeli Öğrenme (Reinforcement Learning)