Mengenal Data

Mengenal Data

Sebelum mengkaji lebih lanjut mengenai statistika, kita perlu memahami jenis data. Jenis data statistika dapat dibagi menjadi dua, yaitu data kualitatif dan data kuantitatif. Data kualitatif adalah data yang dapat diukur secara tidak langsung, seperti warna, rasa, bentuk, dan lain-lain. Sedangkan data kuantitatif adalah data yang dapat diukur secara langsung, seperti tinggi, berat, dan jumlah.

Data nominal adalah jenis data kualitatif yang tidak memiliki urutan atau peringkat tertentu. Contoh data nominal antara lain jenis kelamin, warna, dan status perkawinan. Data nominal biasa digunakan untuk menngetahui aspek demografis yang melekat pada individu. Data rasio adalah jenis data kuantitatif yang memiliki angka, satuan ukuran, dan titik nol yang bermakna. Contoh data rasio antara lain tinggi badan, berat badan, dan usia. Data ordinal adalah jenis data kualitatif yang memiliki urutan atau peringkat tertentu. Contoh data ordinal antara lain tingkat pendidikan, jabatan, dan kelas sosial. Data interval adalah jenis data kuantitatif yang memiliki satuan ukuran tetapi tidak memiliki titik nol yang bermakna. Contoh data interval antara lain waktu, IQ, nilai siswa, dan skor tes.

Nominal

Ordinal

Salah satu referensi yang dapat digunakan (Wickham2017R?).

Note

Data berbeda dengan skala, karena data hanya berbicara bentuk dan tipe sedangkan skala berkaitan dengan tingkat.

Tip

Ketika mengenali data kita sebaiknya memperhatikan bagaimana data tersebut dibuat atau berasal

Jenis data R

Pemahaman data yang baik dapat membantu kita untuk menentukan jenis atau teknik analisis yang sesuai.

Tipe dan struktur data adalah hal yang paling dasar untuk memahami data dan bagaimana cara mengolahnya. R memiliki cara sendiri dalam me

Tipe data

R memiliki beberapa jenis tipe data yang masing-masing merepresentasikan data berbeda. Fungsi class dapat digunakan untuk mengecek tipe dari suatu data. Tipe data dapat dikonversi ke tipe lain jika data sesuai dengan tipe data yang dituju.

Tipe Deskripsi
Numerik Data angka yang dapat dilakukan operasi matematika
Karakter Data teks yang dapat mengandung huruf dan simbol
Integer Data angka bilangan bulat untuk mempercepat proses komputasi
Logical Data yang hanya terdiri dari TRUE dan FALSE
Complex Data angka yang mengandung bilangan imajiner

Numerik

Data numerik berisi angka dan bilangan desimal atau kontinu.

Contoh data numerik

num <- 2
num
[1] 2
class(num)
[1] "numeric"
num <- 2.5
num
[1] 2.5
class(num)
[1] "numeric"
num <- 2e3
num
[1] 2000
class(num)
[1] "numeric"

Operasi matematika sederhana

num <- 2 + 3
num
[1] 5
num <- 2 / 4
num
[1] 0.5

Karakter

Data karakter adalah data teks yang dapat mengandung huruf, simbol, dan angka. Data karakter dibuat dengan menggunakan tanda petik dua (“…”).

kar <- "2"
kar
[1] "2"
class(kar)
[1] "character"
kar <- "1a!"
kar
[1] "1a!"
class(kar)
[1] "character"
kar <- "Hello world"
kar
[1] "Hello world"
class(kar)
[1] "character"

Integer

Data integer adalah data bilangan bulat atau diskrit dan dapat dilakukan operasi matematika seperti data numerik. Data integer memiliki ukuran data yang lebih kecil daripada data numerik sehingga dapat meringankan dan mempercepat proses komputasi.

int <- 2L
int
[1] 2
class(int)
[1] "integer"

Logical

Data logical hanya terdiri dari dua elemen saja yakni TRUE dan FALSE.

logi <- TRUE
logi
[1] TRUE
class(logi)
[1] "logical"

Kompleks

Data kompleks adalah data yang mengandung bilangan imajiner (i).

kom <- 1+2i
kom
[1] 1+2i
class(kom)
[1] "complex"

Struktur data

Struktur Deskripsi
Vektor Data yang disusun memanjang, semua data memiliki tipe yang sama
Matriks Data yang disusun dalam dimensi kolom dan baris, semua data memiliki tipe yang sama
Dataframe Data yang disusun dalam dimensi kolom dan baris, tipe data bisa berbeda-beda setiap kolom
List Data yang dapat diisi data tunggal, vektor, matriks, ataupun dataframe
Factor Data yang sama seperti vektor namun memiliki urutan level pada datanya

Vektor

What’s vector

Membuat vektor yang diisi secara manual

Mengambil data dari vektor

Vektor jika tipe data yang dimasukkan tidak sama

Membuat vektor yang berisi nomor urut

Membuat vektor yang berisi nomor urut dengan kelipatan tertentu

Membuat vektor yang isinya berulang-ulang

num <- c(1,2,3)
class(num)
[1] "numeric"
typeof(num)
[1] "double"
str(num)
 num [1:3] 1 2 3

Matriks

Membuat matriks: cbind, rbind, matrix

Mengambil data dari matriks

vek1 <- c(1,2,3)
vek2 <- c(1,2,3)
mat <- cbind(vek1, vek2)
mat
     vek1 vek2
[1,]    1    1
[2,]    2    2
[3,]    3    3
class(mat)
[1] "matrix" "array" 
typeof(mat)
[1] "double"
str(mat)
 num [1:3, 1:2] 1 2 3 1 2 3
 - attr(*, "dimnames")=List of 2
  ..$ : NULL
  ..$ : chr [1:2] "vek1" "vek2"
mat <- rbind(vek1, vek2)
mat
     [,1] [,2] [,3]
vek1    1    2    3
vek2    1    2    3
class(mat)
[1] "matrix" "array" 
vek3 <- 1:6
mat <- matrix(vek3, ncol=3)
mat
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
mat3 <- matrix(vek3, nrow=2, byrow=TRUE)
mat3
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6

Data frame

Membuat dataframe

Melihat struktur dari dataframe

Melihat ringkasan data

Mengambil data dari dataframe

usia <- c(26, 24, 25, 21, 24)
jenis_kelamin <- c("perempuan", "perempuan", "laki-laki", "perempuan", "laki-laki")
df <- data.frame(usia, jenis_kelamin)
df
  usia jenis_kelamin
1   26     perempuan
2   24     perempuan
3   25     laki-laki
4   21     perempuan
5   24     laki-laki
str(df)
'data.frame':   5 obs. of  2 variables:
 $ usia         : num  26 24 25 21 24
 $ jenis_kelamin: chr  "perempuan" "perempuan" "laki-laki" "perempuan" ...

List

Membuat list sederhana

Membuat list yang berisi matriks atau dataframe

Mengambil data dari list

Faktor

Faktor memiliki sifat yang sama seperti vektor, namun memiliki urutan level pada datanya. Faktor digunakan untuk merepresentasikan data ordinal.

Membuat faktor dengan fungsi factor .

vek <- c("tinggi", "tinggi", "sedang", "tinggi", "sedang", "rendah", "tinggi")
fac <- factor(vek)
fac
[1] tinggi tinggi sedang tinggi sedang rendah tinggi
Levels: rendah sedang tinggi

factor secara otomatis akan mengurutkan level berdasarkan urutan abjad. Untuk menentukan urutan level secara manual, tambahkan argumen levels.

fac <- factor(vek, levels=c("tinggi", "sedang", "rendah"))
fac
[1] tinggi tinggi sedang tinggi sedang rendah tinggi
Levels: tinggi sedang rendah

Fungsi levels dan nlevels dapat digunakan untuk melihat hanya level faktor saja dan jumlah level yang ada dalam faktor.

levels(fac)
[1] "tinggi" "sedang" "rendah"
nlevels(fac)
[1] 3