The Bagplot as A Diagnostic Tool for Multiple Regression Outliers
Year 2007,
Volume: 5 Issue: 1, 35 - 48, 13.07.2007
Enis Sınıksaran
,
M. Hakan Satman
Abstract
The Bagplot is a bivariate generalization of the univariate boxplot which is also used in determining the outliers. Hence it can be used in diagnosing the outliers for the simple linear regression. It cannot be used, however, when the number of variables exceeds one. On the other hand, in statistics literature, it has been shown that the predicted value versus residual plot can represent the whole data in some instances. The main motivation of this paper is that point. The performance of the Bagplot in the predicted value versus residual plot is investigated for some classical and simulated data sets. The approach is found successful for many scenarios.
References
- Belshey, D.A., Kuh, E., Welsh, R.E., 1980. Regression Diagnostics: Identifying Influential Data and Sources of Colinearity.Wiley, New York.
- Brownlee, K.A., 1965. Statistical Theory and Methodology. Wiley, 2nd Edition, NewYork.
- Cook, R.D. ve Weisberg, S., 1980. Characterizations of an Empirical Influence Function for Detecting Influential Cases in Regression. Techonometrics, 22,495-508.
- Hadi, A.S. ve Simonoff, J.S., 1993. Procedures for the Identification of Multiple Outliers in Linear models. J.Amer.Statist.Assoc., 88, 1264-1272.
- Hawkins, D.M, Bradu, D. ve Kass, G.V., 1984. Location of Several Outliers in Multiple Regression Data Using Elemental Sets. Technometrics, 26, 197-208.
- Kianifard, F. ve Swallow, W., 1990. A Monte Carlo Comparison of Some Procedures for Identifying Outliers in Linear Regression. Commun. Statist, Part A Theory Methods 19, 1913-1938.
- Rousseeuw, P.J. ve Leroy, A.M., 1987. Robust Regression and Outlier Detection, Wiley, Newyork.
- Rousseeuw, P.J. ve Ruts, I., 1999. BAGPLOT, Çevrimiçi http://www.agoras.ua.ac.be/.
- Rousseeuw, P.J. ve Ruts, I. ve Tukey, J.W., 1999. The Bagplot:A Bivarite Boxplot, the American Statistician, Vol.53, No.4, 382-387.
- Sebert, D.M., Montgomery, D.C. ve Rollier, D., 1998. A Clustering Algorithm for Identifying Multiple Outliers in Linear Regression. Computational Statistics&Data Analysis, 27, 461- 484.
- Wisnowski, J.W., Montgomery, D.C. ve Simpson, J.R., 2001. A Comparative Analysis of Multiple Outlier Detection Procedures in the Linear Regression Model. Computational Statistics&Data Analysis, 36, 351-382.
Çoklu Regresyon Uçdeğerlerinin Teşhisçisi Olarak Çanta Çiziti
Year 2007,
Volume: 5 Issue: 1, 35 - 48, 13.07.2007
Enis Sınıksaran
,
M. Hakan Satman
Abstract
Çanta çiziti tek değişkenli veriler için kullanılan ve uçdeğerlerin tespitinde de faydalanılan kutu çizitinin iki değişkenli versiyonudur. Dolayısıyla tek bağımsız değişkenli regresyon uçdeğerlerinin tespitinde kullanılabilir. Ancak bağımsız değişken sayısı birden fazla olduğunda, çanta çizitinin dolaysız kullanılma şansı yoktur. Öte yandan regresyon kalıntıları ile bağımlı değişkenin tahmin değerlerinin belirlediği iki boyutlu uzayın tüm veriyi belirli nispette temsil etme yeteneği literatürde kanıtlanmıştır. Bu çalışmada temel olarak bu sonuçtan hareket edilmiştir. Çoklu regresyon modelinden elde edilen kalıntı ve tahmin değerlerinin belirlediği uzayda çanta çizitinin regresyon uçdeğerlerini belirlemedeki performansı bazı klasik verilerle ve çeşitli senaryolarda Monte Carlo simülasyonlarıyla araştırılmıştır. Yaklaşım birçok senaryoda başarılı bulunmuştur.
References
- Belshey, D.A., Kuh, E., Welsh, R.E., 1980. Regression Diagnostics: Identifying Influential Data and Sources of Colinearity.Wiley, New York.
- Brownlee, K.A., 1965. Statistical Theory and Methodology. Wiley, 2nd Edition, NewYork.
- Cook, R.D. ve Weisberg, S., 1980. Characterizations of an Empirical Influence Function for Detecting Influential Cases in Regression. Techonometrics, 22,495-508.
- Hadi, A.S. ve Simonoff, J.S., 1993. Procedures for the Identification of Multiple Outliers in Linear models. J.Amer.Statist.Assoc., 88, 1264-1272.
- Hawkins, D.M, Bradu, D. ve Kass, G.V., 1984. Location of Several Outliers in Multiple Regression Data Using Elemental Sets. Technometrics, 26, 197-208.
- Kianifard, F. ve Swallow, W., 1990. A Monte Carlo Comparison of Some Procedures for Identifying Outliers in Linear Regression. Commun. Statist, Part A Theory Methods 19, 1913-1938.
- Rousseeuw, P.J. ve Leroy, A.M., 1987. Robust Regression and Outlier Detection, Wiley, Newyork.
- Rousseeuw, P.J. ve Ruts, I., 1999. BAGPLOT, Çevrimiçi http://www.agoras.ua.ac.be/.
- Rousseeuw, P.J. ve Ruts, I. ve Tukey, J.W., 1999. The Bagplot:A Bivarite Boxplot, the American Statistician, Vol.53, No.4, 382-387.
- Sebert, D.M., Montgomery, D.C. ve Rollier, D., 1998. A Clustering Algorithm for Identifying Multiple Outliers in Linear Regression. Computational Statistics&Data Analysis, 27, 461- 484.
- Wisnowski, J.W., Montgomery, D.C. ve Simpson, J.R., 2001. A Comparative Analysis of Multiple Outlier Detection Procedures in the Linear Regression Model. Computational Statistics&Data Analysis, 36, 351-382.