IMPUTASI MISSING VALUE PADA DATA YANG MENGANDUNG OUTLIER
Missing data merupakan salah satu pennasalahan yang sering terjadi pada
sebuah survey. Imputasi adalah pilihan penanganan missing data yang paling
bijak dari pada membuang sebagian observasi atau variabel yang mengandung
missing value, mengingat bahwa data sangat mahal dan berharga. Penanganan
missing value pada sekumpulan data yang terdapat outlier menjadi perhatian
khusus karena sebagian besar metode imputasi dengan mekanisme Missing at
Random (MAR) dan Missing Completely at Random (M CAR) mengasumsikan
data berdistribusi normal multivariat. Asumsi ini menjadi tidak valid ketika
terdapat outlier pada data, sehingga sebaiknya menggunakan metode imputasi
berdasarkan estimasi yang robust terhadap outlier. Metode Predictive Mean
Matching (PMM) adalah salah satu altematif metode imputasi komposit,
penggabungan metode imputasi regresi dengan metode imputasi nearest
neighbour, yang mengasumsikan data berasal dari distribusi normal multivariat.
Ketika asumsi normalitas dilanggar, PMM menghasilkan nilai hasil imputasi yang
tidak masuk akal dan statistik Efficiency Relative yang lebih rendah dibandingkan
dengan metode imputasi regresi Least Trimmed Squares (LTS). Metode imputasi
regresi LTS merupakan penggabungan algoritma LTS dan algoritma imputasi
regresl.
Abstract
Missing data is the most frequent problem that occurs in a survey. Thus,
imputation is a prudent alternative of handling the missing data instead of
reducing the number of observations or variables due to its cost achieved and
value. The treatment of the missing data in the presence of outlier becomes the
major problem which is the most imputation method based on the Missing at
Random (MAR) and Missing Completely at Random (MCAR) mechanism.
Moreover, it assumes data originated .from a multivariate normal distribution,
which is no longer valid in the presence of outliers in the data. For instance,
Predictive Mean Matching (PMM), a combination of regression imputation
method and the nearest neighbour method, assumes the data originated from a
multivariate normal distribution. When the normality assumption is violated, the
predictive mean matching method does not yield plausible imputed values plus the
No copy data
No other version available