1 Ekosystem
Książka zawiera szereg przykładów ilustrujących zasadę działania poszczególnych technik walidacji modeli. Ponieważ od wielu lat używam języka R do budowania modeli uczenia maszynowego, to również w tej książce znajdą się implementacje metod ewaluacji modeli wykonane w R. Spośród trzech dominujących ekosystemów w języku R do budowania modeli uczenia maszynowego, czyli caret
1,mlr3
2 i tidymodels
3 postanowiłem postawić na ten ostatn i. Stanowi on przeniesienie filozofii tidy data realizowanej w pakiecie tidyverse
4 na modele ML. tidymodels
jest meta-pakietem zawierającym w sob ie:
1 biblioteka napisana przez Maxa Kuhna, która niestety nie dostaje już wsparcia - https://topepo.github.io/caret/
2 jedna biblioteka z całego ekosystemu przygotowanego głównie przez niemieckich programistów Lars Kotthoff, Raphael Sonabend, Michel Lang, Bernd Bischl. Jej największą zaletą jest fakt, iż wszelkie operacje na danych są dokonywane w formacie data.table
uznawanym za najszybszy - https://mlr3book.mlr-org.com
4 pakiet został stworzony przez Julie Silge i Maxa Kuhna, a ich motto podane podczas prezentacji biblioteki brzmiało Whenever possible, the software should be able to protect users from committing mistakes. Software should make it easy for users to do the right thing
broom
- przekształcanie obiektów statystycznych w tibble;dials
- narzędzia do tuningowania parametrów modelu;dplyr
- narzędzia do manipulacji danymi;ggplot2
- narzędzia do wizualizacji;infer
- narzędzia do wnioskowania statystycznego;modeldata
- pakiet przykładowych danych do budowania modeli;parsnip
- narzędzia do tworzenia i manipulowania funkcjami powszechnie używanymi podczas modelowania;purrr
- zestaw narzędzi do programowania funkcyjnego;recipes
- narzędzie do tworzenia modeli;rsample
- narzędzie do resamplingu;tibble
- narzędzie do operacji na ramkach danych;tidyr
- narzędzie do oczyszczania o transformacji danych;tune
- narzędzie do tuningu hiperparametrów modelu;workflows
- narzędzia do zarządzania procesem uczenia modeli;workflowsets
- narzędzie do tworzenia zestawówworkflow
;yardstick
- narzędzia do oceny dopasowania modelu.
Oprócz wspomnianych pakietów w ramach tidymodels
występują także: applicable
, baguette
, butcher
, discrim
, embed
, hardhat
, corrr
, rules
, text recipes
, tidypredict
, modeldb
i tidyposterior
.
Wybór padł na tidymodels
ponieważ filozofia tworzenia i walidacji modeli przypominająca pieczenie ciasta bardzo mi przypadła do gustu.