Data Mining Course, Istanbul Commerce University

DERS İZLENCESİ (Syllabus)

Veri Madenciliği

Data Mining

14.00 – 17.00 Wed.

Dersi Veren : Doç. Dr. Şadi Evren ŞEKER

Instructor: Dr. Şadi Evren ŞEKER

E-Mail: datamining@sadievrenseker.com

Web Sitesi: http://sadievrenseker.com/wp/?p=558

Giriş: Günümüzde Internet’in gelişimine paralel olarak hızla gelişen trendlerden birisi de gerek internet gerekse diğer veri kaynakları üzerinde işletilen veri madenciliği çalışmalarıdır. Bu çalışmaların genel olarak amacı, verinin işlenerek faydalı sonuçların çıkarılmasıdır. Özellikle çok büyük miktarlardaki verinin işlenmesi ve bilginin değişim hızı, çeşitliliği ve güvenilirliği ile ilgili problemlerin çözülmesi için güncel ve son trend teknolojilerin katılımcılara kazandırılması, bununla birlikte klasik veri madenciliği teorisinin kazandırılarak güncel uygulamalara adapte edilmesi bu dersin hedefleri arasındadır.

Dersin Çıktıları

Bu dersin sonunda katılımcıların aşağıdaki hedeflere ulaşması beklenmektedir:

  1. Klasik veri madenciliği problemlerini anlayabiliyor olmak ve verilen bir problemin veri madenciliği dünyasındaki karşılığını anlayabiliyor olmak.
  2. Veri madenciliği dünyasındaki klasik problemleri çözebilecek yeterlilikte olmak.
  3. Veri madenciliğinde kullanılan temel yöntemleri anlayabiliyor, gerçek problemlere uygulayabiliyor ve alternatif yöntemler arasından doğru yöntemi seçebiliyor olmak.
  4. Büyük veri ve büyük veri dünyasına ait problemleri tanımlayabiliyor olmak
  5. Büyük veri dünyasındaki veri madenciliği uygulamalarını anlayabiliyor ve mevcut çözüm yöntemlerini biliyor olmak.
  6. En az bir adet veri madenciliği aracını kullanabiliyor olmak ve gerçek veriler üzerinde derste anlatılan teorik yöntemleri uygulayabiliyor olmak.
  7. Veri madenciliği çalışmalarının istatistiksel arka planını anlayabiliyor olmak ve istatistik ile veri madenciliği çalışmalarını ilintilendirebiliyor olmak.

Introduction: Data mining studies, parallel to the increasing trend of Internet technologies and all other data sources has an important impact on the computer science world. One major aim of data mining studies is processing the data and reaching knowledge level results from the data. Especially processing data in big volumes and with high speed, great variety and with trust problems are major problems of today’s data mining problems. Also the data mining theory and classical data mining approaches will be covered during the class and the practice of theoretical back ground on real world examples will be covered.

COURSE OBJECTIVES

  1. Understanding of data mining problems and ability to find a solution in data mining world for a real life problem
  2. Ability to solve generic data mining problems
  3. Understanding basic techniques in data mining world and ability to adapt these solutions into real world problems. Ability to select the correct solution methods among alternatives.
  4. Ability to define the problems of big data
  5. Understanding the data mining applications on big data problems and knowledge of current techniques
  6. Ability to use at least one data mining suite.
  7. Understanding the statistical background of data mining studies and relating the statistical methods with data mining.

Ders Kitabı (REQUIRED COURSE MATERIALS )

  1. TEXTBOOK:
    Ian H. Witten and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), Morgan Kaufmann, 2005, ISBN: 0-12-088407-0.
  2. TEXTBOOK 2:

Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeff Ullman, http://infolab.stanford.edu/~ullman/mmds/book.pdf

Derste Kullanılacak Yazılımlar (Softwares Required)

  • Weka
  • R-Project ve R Studio
  • Knime
  • Hadoop ve Mahout (belki)

Not Değerlendirmesi

  • 40% Final
  • 30% Proje
  • 30% Vize

GRADING

  • 40 % Final exam
  • 30 % Projects
  • 30% Midterm

Ders İçeriği

  1. Veri Madenciliğine Giriş (Sunumlar , PDF)

Makine Öğrenmesi, VTYS, OLAP, İstatistiksel kavramlar, KDD adımları, Uygulama problemleri. Veri kümelerinin tanınması (ilk veri kümesi olarak weather.arff)

  1. Veri Ambarları ve OLAP (Sunumlar, PDF)

Veri ambarları ve veri tabanları, çok boyutlu veri modelleri, OLAP, veri bilimi ve iş zekası kavramlarına giriş.

  1. Veri Ön işleme (Sunumlar, PDF)

Kirli ver ve veri temizleme, verinin dönüştürülmesi, boyut azaltılması, verinin ayrık hale getirilmesi, veri filtrelenmesi

  1. Sınıflandırma (Sunumlar, PDF)

Sınıflandırma problem, gözetimli ve gözetimsiz yöntemler, KNN sınıflandırma yöntemine giriş.

  1. Sınıflandırma Devam

Doğrusal ayrıma dayalı sınıflandırma yöntemleri (LDA, SVM gibi) ve çoklu sınıflarda kullanımı

  1. Bölütleme (Kümeleme)

Bölütleme problemleri, k-means algoritması,

  1. Tahmin ve Birliktelik Çıkarımı

Regrezisyon ile tahmin, Kitle kaynak kullanımı ve tahmin, apriori algoritması ile birliktelik kurallarının madenciliği

  1. Çoklu veri madenciliği yöntemlerinin kullanımı

Boosting, MaVL,

  1. Vize
  2. Yapay Sinir Ağları ve Regrezisyon Yöntemleri

Regrezisyon ve yapay sinir ağları ile klasik problemlerin çözümleri.

  1. Büyük Veriyi İşleme

Map-Reduce problemleri,

  1. Metin Madenciliği

Metin özellik çıkarım yöntemleri, Doğal dil işlemeye giriş ve problemler, uygulama olarak yazar sınıflandırma ve yazar tanıma problemi

  1. Sosyal Ağ ve Web Madenciliği

Knime ile web madenciliği uygulaması ve Twitter verisinin işlenmesi

  1. Uygulamalar

Course Outline

  1. Introduction to Data Mining (Slides in PDF)

Machine Learning, DBMS, OLAP, Statistical concepts, KDD steps, Application Problems. Introduction to data sets (weather.arff)

  1. Data Warehouse and OLAP (Slides in PDF)

Data warehouse and data bases, multi dimensional data models, OLAP, data science and business intelligence.

  1. Data Preprocessing (Slides in PDF)

Feature Extraction, Dirty data, cleaning data, transforming data, dimension reduction, discretization of data, filters, normalization

  1. Classification (Slides in PDF)

Classification problems, supervised and unsupervised learning, OneR, TwoR, KNN, Naïve Bayes

  1. Classification, Continue

Linear Classification methods (LDA, SVM gibi) multiple classification

  1. Clustering

Clustering concept, k-means,

  1. Prediction and Association Rule Mining

Regression, corwd sourcing, apriori algorithm.

  1. Multiple methods for Data Mining

Boosting, MaVL,

  1. Midterm
  2. Artificial Neural Networks, Regression Analysis

Regression methods and ANN approaches to classical data mining problems.

  1. Processing Big Data

Map-Reduce

  1. Text Mining

Feature extraction methods for texts. Introduction to natural language processing, author attribution and classification problems.

  1. Social Network and Web Mining

Web mining by Knime and a Social mining application on twitter data.

  1. Applications

Haftalık Plan (Weekly Plan)

Kitabın yazarının hazırladığı slaytlar (Slides from the Author of Book)
http://web.engr.illinois.edu/~hanj/bk3/bk3_slidesindex.htm
Bu slaytların işleniş sırası aşağıdaki şekildedir:

  • Hafta 1 : Genel giriş, dersin işlenişi, ders takvimi, ölçme ve değerlendirme kriterleri, projeler, derste anlatılacak yazılımlar ve genel olarak veri madenciliği kavramlarına giriş yapılmıştır
  • Hafta 2 (30 Eylül 2015): Chapter 1 Introduction
  • Hafta 3 (07 Ekim 2015) : Chapter 4 Data Warehousing and On-Line Analytical Processing
  • Hafta 4 (14 Ekim 2015) : Chapter 3 Preprocessing ve Weka’ya giriş (ders lab’ta yapılacak)
  • Hafta 5 (21 Ekim 2015): Chapter 8 Sınıflandırma (Classification) kavramına giriş ve bazı sınıflandırma algoritmaları
  • Hafta 6 (28 Ekim 2015): 29 Ekim Bayramı dolayısıyla ders yapılmamıştır
  • Hafta 7 ( 4 Kasım 2015): Chapter 8 Sınıflandırma (Classification) algoritmaları: KNN, OneR, ZeroR, Naive Bayes, Decision Trees, Rule Based Classification
  • Hafta 8 (11 Kasım 2015): Vize İmtihanı (sorular ve çözümleri için tıklayınız)
  • Hafta 9 (18 Kasım 2015): İleri Sınıflandırma Algoritmaları: SVM, Linear Regression, ANN, non-linear Regression

Notlar

Vize Notları için Tıklayınız.

Proje Teslim Süresi 27 Aralık 2015 Pazar akşamına kadar uzatılmıştır. ilgili tarihi taşıdığı sürece projenizi teslim edebilirsiniz (gece yarısına kadar).

Final 120 üzerindendi ancak notlar çok düşük olduğu için (orjinal notlarınzı tabloda var) final notlarını da %33 oranında yukarı çektim. Dolayısıyla vize notlarınızı 2 ile çarpıp final notlarınızı da %33 arttırmış olduk. Harf notlarınızı buna göre hesapladım ancak yine notları düşük bulduğum için bu kez birer harf ilave ederek yükselttim. Sonuçları dosyadan görebilirsiniz. Hepinize başarılı ve mutlu bir yeni yıl dilerim. Final, Proje ve Harf notlarınız için tıklayın. Lütfen itirazınız varsa en kısa sürede bana ulaşın (ben de insanın ve ne kadar dikkat edersem edeyim hata yapabiliyorum, özellikle proje konusunda ders için belirlediğimiz mail adresi dışında maillere proje gönderildiği için hepsini toparlamak çok fazla vaktimi aldı, yine de gözden kaçmış olma ihtimali var, böyle bir durum varsa veya başka bir itirazınız varsa bana en kısa sürede ulaşın).