Eksploracja danych
Wydział Podstaw Techniki
Politechnika Lubelska
d.majerek@pollub.pl
2024-04-23
Wstęp
O książce
Niniejsza książka powstała na bazie doświadczeń autora, a głównym jej celem jest przybliżenie czytelnikowi podstaw z dziedziny Data mining studentom kierunku Matematyka Politechniki Lubelskiej. Będzie łączyć w sobie zarówno treści teoretyczne związane z przedstawianymi etapami eksploracji danych i budową modeli, jak i praktyczne wskazówki dotczące budowy modeli w środowisku R (R Core Team 2018). Podane zostaną również wskazówki, jak raportować wyniki analiz i jak dokonać właściwych ilustracji wyników. Bardzo użyteczny w napisaniu książki były pakiety programu R: bookdown (Xie 2018a), knitr (Xie 2018b) oraz pakiet rmarkdown (Allaire et al. 2018).
Zakres przedmiotu
Przedmiot Eksploracja danych będzie obejmował swoim zakresem eksplorację i wizualizację danych oraz uczenie maszynowe. Eksploracja danych ma na celu pozyskiwanie i systematyzację wiedzy pochodzącej z danych. Odbywa się ona głównie przy użyciu technik statystycznych, rachunku prawdopodobieństwa i metod z zakresu baz danych. Natomiast uczenie maszynowe, to gałąź nauki (obejmuje nie tylko statystykę, choć to na niej się głównie opiera) dotyczącej budowy modeli zdolnych do rozpoznawania wzorców, przewidywania wartości i klasyfikacji obiektów. Data mining to szybko rosnaca grupa metod analizy danych rozwijana nie tylko przez statystyków ale również przez biologów, genetyków, cybernetyków, informatyków, ekonomistów, osoby pracujace nad rozpoznawaniem obrazów i wiele innych grup zawodowych. W dzisiejszych czasch trudno sobie wyobrazić życie bez sztucznej inteligencji. Towarzyszy ona nam w codziennym, życiu kiedy korzystamy z telefonów komórkowych, wyszukiwarek internetowych, robotów sprzątających, automatycznych samochodów, nawigacji czy gier komputerowych. Lista ta jest niepełna i stale się wydłuża.
href=“https://twitter.com/i/status/1091069356367200256”>January 31, 2019
Zakres technik stosowanych w data mining
- statystyka opisowa
- wielowymiarowa analiza danych
- analiza szeregów czasowych
- analiza danych przestrzennych
- reguły asocjacji
- uczenie maszynowe1, w tym:
- klasyfikacja
- predykcja
- analiza skupień
- text mining
- analiza przeżycia
- i wiele innych

Rysunek 0.1: Przykład nienadzorowanego uczenia maszynowego. Źródło:https://analyticstraining.com/cluster-analysis-for-business/
href=“https://twitter.com/i/status/1097199751072690176”>Ferbruary 17, 2019
Etapy eksploracji danych
![Etapy eksploracji danych [@kavakiotis2017]](images/dm_stages.jpg)
Rysunek 0.2: Etapy eksploracji danych (Kavakiotis et al. 2017)
- Czyszczenie danych - polega na usuwaniu braków danych, usuwaniu stałych zmiennych, imputacji braków danych oraz przygotowaniu danych do dalszych analiz.
- Integracja danych - łączenie danych pochodzących z różnych źródeł.
- Selekcja danych - wybór z bazy tych danych, które są potrzebne do dalszych analiz.
- Transformacja danych - przekształcenie i konsolidacja danych do postaci przydatnej do eksploracji.
- Eksploracja danych - zastosowanie technik wymienionych wcześniej w celu odnalezienia wzorców2 i zależności.
- Ewaluacja modeli - ocena poprawności modeli oraz wzorców z nich uzyskanych.
- Wizualizacja wyników - graficzne przedstawienie odkrytych wzorców.
- Wdrażanie modeli - zastosowanie wyznaczonych wzorców.