Veri Madenciliği Bilgi Keşfi Nedir? Bilgi Keşfi Süreçleri Nelerdir?
Veri,Bilgi,Enformasyon
ve Bilgi Keşfi Nedir?
Veri
: Uygulamar ya da diğer adı
ile programlarda kullanılan işlenmemiş sayım,ölçü gibi tek başına anlamı
olmayan,varlık bildiren her şey olarak adlandırılır.
Enformasyon :İşlenmiş veri,bir anlamı olup tek başına anlamı
olmayan verinin işlenmesi
Bilgi : Enformasyon haline dönüştürülmüş gerçeklerin
analiz edilmesi ve sentezlenmesi sonucu çıkarması,bireyin onu
algılaması,sınıflandırma yaptığımızda bilgiye ulaşmış oluyoruz.
Örn:
Köpektir.
Zeynep her yıl tüm satış temsicilerinden daha fazla
satış gerçekleştirir.
Bilgi
keşfi ise à Veriden bilgiye
ulaşmamızı sağlayan süreç veya pratikte veri madenciliği bilgi keşfi ile eş
anlamlıdır.Sorgulama ya ada basit istatistik yöntemler veri madenciliği
değildir.
Bilgi Keşfi Süreci
1-)Ön İşleme Süreçleri
2-)Veri Seçme
3-)Veri Dönüştürme
4-)Veri İndirgeme
5-)Veri Madenciliği
6-)Değerlendirme ve Yorumlama
1-)Ön İşleme
Süreçleri
En çok zaman ve işlem gerektiren sonucu direk
etkileyen adımdır.Gürültülü,eksik,tutarsız ve hatalı verileri küme içerisinden
çıkarmak ya da düzenlemek gereklidir.Veri ön işleme sürecinde birden çok teknik
kullanılmaktadır.
Veri
Temizleme:Gereksiz verilerin atılması àÖğrenci ismi not
ortalamasını etkilemez o zaman atalım.
Tekrarlayan kayıtların atılması gibi kullanacağımız
modele uygun olarak temizleme yapmalıyız.(Noktaların,virgüllerin atılması duygu
analizi için önemli olduğundan atmak gereksizdir.)
Veri
Birleştirme:Farklı
veritabanlarındaki ya da kaynaktaki verileri bir arada tutmak için veri ambarı
oluşturulur.Böylece veriler birleştirilir.
Veri
ambarı:Farklı veritabanlarını bir
araya getirilerek toplandığı yer.
1. Veritabanı 2.Veritabanı
Ogr_kimlikno Ogr_Tcno
12345678901 12345678901
(Farklı olan sütünlar,aynı öğrencileri içerdiği için
bunları tek bir sütün altında toplayıp farklılığı azaltmalıyız.)
2-Veri Seçme
Anlamlı sonuç alınabilecek değişkenlerin
belirlenmesi,seçilmesi ve gereksiz özelliklerin arındırılması
Örn:
Ev alırken birkaç özelliğin fiyatı etkilememesi gibi
3-)Veriyi Dönüştürme
Verilerin kullanacağımız formata çevrilmesi.
JPG àPNG , CSV Formatına Dönüştürme , Veri tipi
dönüşümü(Object à float64) , Görüntülerin boyutlarının eşit hale
getirilmesi
4-)Veriyi indirgeme
Veriler işleme alınırken bütün özellikleri dikkate
alındığında işlem süresi uzun olabilmektedir.Bu nedenle,verilerin
çıkarıldığında sonucu etkilemeyecek bazı özelliklerin çıkarılarak,genel olarak
tüm verinin yerini tutabilecek hale dönüştürülmesidir.
Veri setlerini küçülterek tekrar eden veriyi
yazmamak gibi
Film sitelerinde 5 yıldız ve 10 yıldızları özet
haline getiri eşitlenmesi gibi
Bu işlem genel olarak:
·
Sıkıştırma
·
Sayısının
azaltılması
·
Ayrıştırma
·
Boyutunun
indirgenmesi
1000Gb resim var. à Sıkıştırma gerekli,daha az veriyle işlem
yapmalıyım.(Çok da az olmamalı.)
5-Veri Madenciliği
Görüldüğü gibi bilgi keşfi sürecinden bu aşamaya
kadar veriler üzerinde anlamsal ve ilişkisel olarak herhangi bir işlem
yapılmamaktadır.
Veriler temizlenmiş,gerektiği yerde birleştirilmiş
ve indirgenmiş olarak işlenmeye hazır hale getirilmiştir.
Bunun sonucunda veri madenciliği ile bu veriler
işleme tabi tutularak ilişkisel ve anlamsal değer taşıyan sonuçlar
üretilmektedir.
Bu işlemlerin yapılması için veri madenciliği
modelleme yöntemleri gerçekleştirilmiştir.
Bu yöntemler 3 gruba ayrılır:
A. Sınıflama ve Regresyon
B. Kümeleme
C. Birliktelik Kuralları ve Ardışık Zamanlı Örüntüler
A.Sınıflama ve Regresyon
Özelliklere bakarak kategorilere ayırma işlemine
sınıflama,süreklilik gösteren değerlerin tahmininde yapılan işleme ise
regresyon denir.Yani
Sınıfların özellikleri önceden belirlenmeli ona göre
gelen veriyi ayırt etmeliyiz.Ama hiçbir bilgi vermeden tahmin etme(ev fiyat
tahmini gibi) regresyon adını alır.
Örn:
Spam verilerini önceden belirtmeliyim.Gelen veriye
göre spamdır veya spam değildir.Şeklinde sınıflandırmış oluyorum.
B.Kümeleme
Nesnelerin kendini temsil eden sayısal değerlerini
göz önüne alarak bu değerlerin birbirlerine uzaklık ve yakınlıklarına göre
gruplandırılmasıdır.
Kümeleme işleminde amaç,büyük veri içerisinden
benzer özellik taşıyanların bir arada bulunduğu kümeyi bularak veri analizi
aralığını azalmaktır.
C.Birliktelik Kuralları ve Ardışık
Zamanlı Örüntüler
Örnek vererek açıklamak gerekirse,bir marketin
alışveriş faturasına bakarak kişilerin genel olarak aldığı ürünleri görebilir
ve bu kişilere uygun olarak markette satılan ürünlerin yerleştirilmesi
yapılabilir.
Ya da
Bir kişinin önceden ziyaret ettiği web
sayfasındakileri reklam halinde kişiye gösterilmesidir.
6-Değerlendirme ve
Yorumlama
Elde edilen anlamlı örüntülerin problemin çözümünde
yeterli olup olmadığı,doğrı ve tutarlı sonuçlar verip vermediği,farklı
modellerde ve tekniklerde uygulanan sonuçların kıyaslanarak probleme uygun
model ve tekniğin açıklanmasıdır.
Yapılan
işlem sonucunda elde edilen çıktıların kullanıcıya uygun bilgi çıkarımı yapacak
şekilde gerçekleştirilir.
Yorumlar
Yorum Gönder