1 Zakład Bioinformatyki, Instytut Informatyki, Uniwersytet w Białymstoku

Correspondence: Jarosław Kotowicz <>

1 Grupy 3 i 4 (prowadzący mgr R. Jankowski) zajęcia pierwsze (zastępstwo dr J. Kotowicz)

2 Przygotowanie do pracy

2.1 Instalacja oprogramowania

  1. R strona domowa www.r-project.org
  • wybieramy download
  • wybieramy mirror np. serwer niemiecki
  • ściągamy plik instalacyjny
  1. Rstudio (GUI) dla R RStudio
  • należy pobrać system opensource
  1. Przeglądarka plików pdf natywna dla RStudio (pod Windows) sumatra (opensource)
  1. Instalujemy w kolejności R, sumatra, RStudio

2.2 Przygotowanie do pracy

  1. W katalagu dokumenty tworzymy folder (nazwa zgodnie z zasadą Inf_xxxxx, gdzie xxxxx to numer albumu).
  2. Uruchamiamy RSudio
  3. Zachowujemy porządek. Tworzymy nowy projekt
  • Files -> New Project… -> Existing Directory -> Browse… i wybieramy folder, który utworzyliśmy oraz zaznaczamy Open in new session.
    Uwaga: Zawsze na koniec pracy/zajęć należy zamknąć projekt. Files -> Close Project
    Uwaga: Zawsze na początku pracy/zajęć należy otworzyć projekt. Files -> Recent Projects i wybrać swój (będzie miał on taką nazwę, jak nasz katalog).
  1. Dostosowujem RSudio do następujących wymagań:
  • Tools -> Project Options ->
    1. Code Editing -> Text encoding wybór UTF-8
    2. Sweave -> PDF Generaion wybór knitr
      Uwaga: Jeżeli chcemy korzystać z TeX (LaTeX), to musimy mieć zaistalowny system/program np. MikTeX.
  • Tools -> Global Options ->
    1. Appearance wybór wyglądu RSudion np. ambiance (ciemny motyw).

  1. W domu instalujemy konieczne biblioteki R nazywane package
  • dolne prawe okienko - okno Packages -> Install wpisujemy tidyverse
  1. Otwieramy pliki
  • R Script: Files -> New File -> R Script
  • R Notebook: Files -> New File -> R Notebook
  • R Markdown: Files -> New File -> R Markdown i wybieramy rodzaj dokumentu np. Document lub Presentation.
    Uwaga: Wszystkie pliki podpisujemy zgodnie ze schematem Inf_xxxxx.

  1. Będziemy zawsze pracować albo w pliku skryptowym R albo w R Notebook.
  2. Informacje dla pliku skryptowego
  • wywołanie aktualnej linii w konsoli CTRL+ENTER
  • odwołanie się do funkcji z danej biblioteki package::function np. stats::filter
  • podczytanie biblioteki library(nazwa bibilioteki)
  • znak komentarza hashtag tzn. #

  1. Import danych
  • korzystamy z danych dostępnych na stronie Jareda P. Landera
  • plik csv (textowe) import: File -> Import Dataset -> From Text (readr) (w polu File/URL kopiujemy adres https://jaredlander.com/data/ i dopisujemy nazwę pliku np. acs_ny.csv) -> Update
  • wykorzystujemy opcje Import Options aby wybrać np. znak rozdzielający dane średnik to semicolon itd.
  • możemy zmienić też typy kolumn wybierając dla kolumny z menu rozwijalnego wartość Uwaga: W przypadku typu factor (zmienna czynnikowa) należy wskazać wszystkie poziomy (wartości.
  • kopiujemy z okienka Code Preview do pliku skryptowego polecenie poczytując wcześniej bibliotekę readr, ja tutaj podczytuję tidyverse.
  • braki danych NA (skrót od not available), nieliczby NaN (not a number)
  • typ numeric w R identyczny jak double w C++ i co więcej używane też jest równoważnie numeric i double
library(tidyverse)
Registered S3 method overwritten by 'dplyr':
  method           from
  print.rowwise_df     
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
-- Attaching packages --------------------------------------- tidyverse 1.3.0 --
<U+221A> ggplot2 3.3.0     <U+221A> purrr   0.3.3
<U+221A> tibble  2.1.3     <U+221A> dplyr   0.8.4
<U+221A> tidyr   1.0.2     <U+221A> stringr 1.4.0
<U+221A> readr   1.3.1     <U+221A> forcats 0.5.0
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()

Przykład (skopiowany kod i następnie uporządkowany)

acsNY <- read_csv("https://jaredlander.com/data/acs_ny.csv", 
                  col_types = cols(ElectricBill = col_integer(), 
                                   FamilyIncome = col_integer(), 
                                   FamilyType = col_factor(levels = c("Married", "Female Head", "Male Head")), 
                                   HouseCosts = col_integer(), 
                                   Insurance = col_integer(), 
                                   NumBedrooms = col_integer(), 
                                   NumChildren = col_integer(), 
                                   NumPeople = col_integer(), 
                                   NumRooms = col_integer(), 
                                   NumVehicles = col_integer(), 
                                   NumWorkers = col_integer()))

  1. Przetwarzanie potokowe tzw. pipe (biblioteka magrittr) Uwaga: Użycie biblioteki dplyr powoduje możliwość korzystania z przetwarzania potokowego. Używając biblioteki tidyverse podczytuję również dplyr.
    co wysyłam %>% gdzie wysyłam
    Zasada przetwarzania potkowego f(a) jest to a %>% f

f(a,b) jest to a %>% f(b)

f(a,b) jest to b %>% f(a,.) f(a,b) Uwaga: Kropka wskazuje miejsca wstawienia zmiennej.

g(f(a)) jest to a %>% f %>% g

  1. Reguła wcięć poprawny zapis zgodny z regułą wcięć to
acsNY %>%
  filter(NumChildren == 0) %>%
  select(c(1:6)) %>%
  head()
save(acsNY, file = "acsNY.RData")
rm(list = ls())
load("acsNY.RData")
summary(acsNY)
    Acres            FamilyIncome           FamilyType     NumBedrooms     NumChildren        NumPeople        NumRooms     
 Length:22745       Min.   :     50   Married    :18326   Min.   :0.000   Min.   : 0.0000   Min.   : 2.00   Min.   : 1.000  
 Class :character   1st Qu.:  52540   Female Head: 3266   1st Qu.:3.000   1st Qu.: 0.0000   1st Qu.: 2.00   1st Qu.: 6.000  
 Mode  :character   Median :  87000   Male Head  : 1153   Median :3.000   Median : 0.0000   Median : 3.00   Median : 7.000  
                    Mean   : 110281                       Mean   :3.385   Mean   : 0.9012   Mean   : 3.39   Mean   : 7.175  
                    3rd Qu.: 133800                       3rd Qu.:4.000   3rd Qu.: 2.0000   3rd Qu.: 4.00   3rd Qu.: 8.000  
                    Max.   :1605000                       Max.   :8.000   Max.   :12.0000   Max.   :18.00   Max.   :21.000  
   NumUnits          NumVehicles      NumWorkers      OwnRent           YearBuilt           HouseCosts    ElectricBill
 Length:22745       Min.   :0.000   Min.   :0.000   Length:22745       Length:22745       Min.   :   4   Min.   :  1  
 Class :character   1st Qu.:2.000   1st Qu.:1.000   Class :character   Class :character   1st Qu.: 650   1st Qu.:100  
 Mode  :character   Median :2.000   Median :2.000   Mode  :character   Mode  :character   Median :1200   Median :150  
                    Mean   :2.113   Mean   :1.745                                         Mean   :1480   Mean   :175  
                    3rd Qu.:3.000   3rd Qu.:2.000                                         3rd Qu.:2000   3rd Qu.:220  
                    Max.   :6.000   Max.   :3.000                                         Max.   :7090   Max.   :580  
  FoodStamp         HeatingFuel          Insurance        Language        
 Length:22745       Length:22745       Min.   :   0.0   Length:22745      
 Class :character   Class :character   1st Qu.: 400.0   Class :character  
 Mode  :character   Mode  :character   Median : 720.0   Mode  :character  
                                       Mean   : 960.9                     
                                       3rd Qu.:1200.0                     
                                       Max.   :6600.0                     
acsNew <- read_csv("https://www.jaredlander.com/data/acsNew.csv", 
                   col_types = cols(ElectricBill = col_integer(), 
                                    FamilyIncome = col_integer(),
                                    FamilyType = col_factor(levels = c("Married", "Female Head", "Male Head")),
                                    HeatingFuel = col_factor(levels = c("Wood", "Oil", "Electricity", "Gas", "Coal", "Other", "None")),
                                    HouseCosts = col_integer(),
                                    Income = col_factor(levels = c("Below", "Above")),
                                    Insurance = col_integer(), 
                                    NumBedrooms = col_integer(), 
                                    NumChildren = col_integer(), 
                                    NumPeople = col_integer(), 
                                    NumRooms = col_integer(), 
                                    NumVehicles = col_integer(), 
                                    NumWorkers = col_integer()))
summary(acsNew)
    Acres            FamilyIncome           FamilyType    NumBedrooms     NumChildren       NumPeople         NumRooms     
 Length:2273        Min.   :   1125   Married    :1831   Min.   :0.000   Min.   :0.0000   Min.   : 2.000   Min.   : 1.000  
 Class :character   1st Qu.:  53700   Female Head: 327   1st Qu.:3.000   1st Qu.:0.0000   1st Qu.: 2.000   1st Qu.: 6.000  
 Mode  :character   Median :  89200   Male Head  : 115   Median :3.000   Median :0.0000   Median : 3.000   Median : 7.000  
                    Mean   : 110982                      Mean   :3.404   Mean   :0.8847   Mean   : 3.401   Mean   : 7.241  
                    3rd Qu.: 136630                      3rd Qu.:4.000   3rd Qu.:2.0000   3rd Qu.: 4.000   3rd Qu.: 8.000  
                    Max.   :1014000                      Max.   :8.000   Max.   :8.0000   Max.   :12.000   Max.   :21.000  
                                                                                                                           
   NumUnits          NumVehicles      NumWorkers      OwnRent           YearBuilt           HouseCosts    ElectricBill  
 Length:2273        Min.   :0.000   Min.   :0.000   Length:2273        Length:2273        Min.   :   4   Min.   :  1.0  
 Class :character   1st Qu.:2.000   1st Qu.:1.000   Class :character   Class :character   1st Qu.: 670   1st Qu.:100.0  
 Mode  :character   Median :2.000   Median :2.000   Mode  :character   Mode  :character   Median :1200   Median :150.0  
                    Mean   :2.118   Mean   :1.778                                         Mean   :1488   Mean   :176.6  
                    3rd Qu.:3.000   3rd Qu.:2.000                                         3rd Qu.:2000   3rd Qu.:220.0  
                    Max.   :6.000   Max.   :3.000                                         Max.   :6500   Max.   :580.0  
                                                                                                                        
  FoodStamp              HeatingFuel     Insurance        Language           Income    
 Length:2273        Wood       : 117   Min.   :   0.0   Length:2273        Below:1817  
 Class :character   Oil        : 622   1st Qu.: 400.0   Class :character   Above: 456  
 Mode  :character   Electricity: 109   Median : 720.0   Mode  :character               
                    Gas        :1387   Mean   : 968.1                                  
                    Coal       :  16   3rd Qu.:1200.0                                  
                    Other      :  18   Max.   :6600.0                                  
                    None       :   4                                                   
acsNY %>% summary
    Acres            FamilyIncome           FamilyType     NumBedrooms     NumChildren        NumPeople        NumRooms     
 Length:22745       Min.   :     50   Married    :18326   Min.   :0.000   Min.   : 0.0000   Min.   : 2.00   Min.   : 1.000  
 Class :character   1st Qu.:  52540   Female Head: 3266   1st Qu.:3.000   1st Qu.: 0.0000   1st Qu.: 2.00   1st Qu.: 6.000  
 Mode  :character   Median :  87000   Male Head  : 1153   Median :3.000   Median : 0.0000   Median : 3.00   Median : 7.000  
                    Mean   : 110281                       Mean   :3.385   Mean   : 0.9012   Mean   : 3.39   Mean   : 7.175  
                    3rd Qu.: 133800                       3rd Qu.:4.000   3rd Qu.: 2.0000   3rd Qu.: 4.00   3rd Qu.: 8.000  
                    Max.   :1605000                       Max.   :8.000   Max.   :12.0000   Max.   :18.00   Max.   :21.000  
   NumUnits          NumVehicles      NumWorkers      OwnRent           YearBuilt           HouseCosts    ElectricBill
 Length:22745       Min.   :0.000   Min.   :0.000   Length:22745       Length:22745       Min.   :   4   Min.   :  1  
 Class :character   1st Qu.:2.000   1st Qu.:1.000   Class :character   Class :character   1st Qu.: 650   1st Qu.:100  
 Mode  :character   Median :2.000   Median :2.000   Mode  :character   Mode  :character   Median :1200   Median :150  
                    Mean   :2.113   Mean   :1.745                                         Mean   :1480   Mean   :175  
                    3rd Qu.:3.000   3rd Qu.:2.000                                         3rd Qu.:2000   3rd Qu.:220  
                    Max.   :6.000   Max.   :3.000                                         Max.   :7090   Max.   :580  
  FoodStamp         HeatingFuel          Insurance        Language        
 Length:22745       Length:22745       Min.   :   0.0   Length:22745      
 Class :character   Class :character   1st Qu.: 400.0   Class :character  
 Mode  :character   Mode  :character   Median : 720.0   Mode  :character  
                                       Mean   : 960.9                     
                                       3rd Qu.:1200.0                     
                                       Max.   :6600.0                     

W razie pytań porszę o kontak e-mailowy.

3 Praca domowa z dnia 18 marca 2020r. (do laboratorium)

  1. Proszę przeczytać R Notebooki na mojej stronie.
