Research Article
BibTex RIS Cite

The Bagplot as A Diagnostic Tool for Multiple Regression Outliers

Year 2007, Volume: 5 Issue: 1, 35 - 48, 13.07.2007

Abstract

The Bagplot is a bivariate generalization of the univariate boxplot which is also used in determining the outliers. Hence it can be used in diagnosing the outliers for the simple linear regression. It cannot be used, however, when the number of variables exceeds one. On the other hand, in statistics literature, it has been shown that the predicted value versus residual plot can represent the whole data in some instances. The main motivation of this paper is that point. The performance of the Bagplot in the predicted value versus residual plot is investigated for some classical and simulated data sets. The approach is found successful for many scenarios.

References

  • Belshey, D.A., Kuh, E., Welsh, R.E., 1980. Regression Diagnostics: Identifying Influential Data and Sources of Colinearity.Wiley, New York.
  • Brownlee, K.A., 1965. Statistical Theory and Methodology. Wiley, 2nd Edition, NewYork.
  • Cook, R.D. ve Weisberg, S., 1980. Characterizations of an Empirical Influence Function for Detecting Influential Cases in Regression. Techonometrics, 22,495-508.
  • Hadi, A.S. ve Simonoff, J.S., 1993. Procedures for the Identification of Multiple Outliers in Linear models. J.Amer.Statist.Assoc., 88, 1264-1272.
  • Hawkins, D.M, Bradu, D. ve Kass, G.V., 1984. Location of Several Outliers in Multiple Regression Data Using Elemental Sets. Technometrics, 26, 197-208.
  • Kianifard, F. ve Swallow, W., 1990. A Monte Carlo Comparison of Some Procedures for Identifying Outliers in Linear Regression. Commun. Statist, Part A Theory Methods 19, 1913-1938.
  • Rousseeuw, P.J. ve Leroy, A.M., 1987. Robust Regression and Outlier Detection, Wiley, Newyork.
  • Rousseeuw, P.J. ve Ruts, I., 1999. BAGPLOT, Çevrimiçi http://www.agoras.ua.ac.be/.
  • Rousseeuw, P.J. ve Ruts, I. ve Tukey, J.W., 1999. The Bagplot:A Bivarite Boxplot, the American Statistician, Vol.53, No.4, 382-387.
  • Sebert, D.M., Montgomery, D.C. ve Rollier, D., 1998. A Clustering Algorithm for Identifying Multiple Outliers in Linear Regression. Computational Statistics&Data Analysis, 27, 461- 484.
  • Wisnowski, J.W., Montgomery, D.C. ve Simpson, J.R., 2001. A Comparative Analysis of Multiple Outlier Detection Procedures in the Linear Regression Model. Computational Statistics&Data Analysis, 36, 351-382.

Çoklu Regresyon Uçdeğerlerinin Teşhisçisi Olarak Çanta Çiziti

Year 2007, Volume: 5 Issue: 1, 35 - 48, 13.07.2007

Abstract

Çanta çiziti tek değişkenli veriler için kullanılan ve uçdeğerlerin tespitinde de faydalanılan kutu çizitinin iki değişkenli versiyonudur. Dolayısıyla tek bağımsız değişkenli regresyon uçdeğerlerinin tespitinde kullanılabilir. Ancak bağımsız değişken sayısı birden fazla olduğunda, çanta çizitinin dolaysız kullanılma şansı yoktur. Öte yandan regresyon kalıntıları ile bağımlı değişkenin tahmin değerlerinin belirlediği iki boyutlu uzayın tüm veriyi belirli nispette temsil etme yeteneği literatürde kanıtlanmıştır. Bu çalışmada temel olarak bu sonuçtan hareket edilmiştir. Çoklu regresyon modelinden elde edilen kalıntı ve tahmin değerlerinin belirlediği uzayda çanta çizitinin regresyon uçdeğerlerini belirlemedeki performansı bazı klasik verilerle ve çeşitli senaryolarda Monte Carlo simülasyonlarıyla araştırılmıştır. Yaklaşım birçok senaryoda başarılı bulunmuştur.

References

  • Belshey, D.A., Kuh, E., Welsh, R.E., 1980. Regression Diagnostics: Identifying Influential Data and Sources of Colinearity.Wiley, New York.
  • Brownlee, K.A., 1965. Statistical Theory and Methodology. Wiley, 2nd Edition, NewYork.
  • Cook, R.D. ve Weisberg, S., 1980. Characterizations of an Empirical Influence Function for Detecting Influential Cases in Regression. Techonometrics, 22,495-508.
  • Hadi, A.S. ve Simonoff, J.S., 1993. Procedures for the Identification of Multiple Outliers in Linear models. J.Amer.Statist.Assoc., 88, 1264-1272.
  • Hawkins, D.M, Bradu, D. ve Kass, G.V., 1984. Location of Several Outliers in Multiple Regression Data Using Elemental Sets. Technometrics, 26, 197-208.
  • Kianifard, F. ve Swallow, W., 1990. A Monte Carlo Comparison of Some Procedures for Identifying Outliers in Linear Regression. Commun. Statist, Part A Theory Methods 19, 1913-1938.
  • Rousseeuw, P.J. ve Leroy, A.M., 1987. Robust Regression and Outlier Detection, Wiley, Newyork.
  • Rousseeuw, P.J. ve Ruts, I., 1999. BAGPLOT, Çevrimiçi http://www.agoras.ua.ac.be/.
  • Rousseeuw, P.J. ve Ruts, I. ve Tukey, J.W., 1999. The Bagplot:A Bivarite Boxplot, the American Statistician, Vol.53, No.4, 382-387.
  • Sebert, D.M., Montgomery, D.C. ve Rollier, D., 1998. A Clustering Algorithm for Identifying Multiple Outliers in Linear Regression. Computational Statistics&Data Analysis, 27, 461- 484.
  • Wisnowski, J.W., Montgomery, D.C. ve Simpson, J.R., 2001. A Comparative Analysis of Multiple Outlier Detection Procedures in the Linear Regression Model. Computational Statistics&Data Analysis, 36, 351-382.
There are 11 citations in total.

Details

Primary Language Turkish
Subjects Economics, Statistics
Journal Section Research Articles
Authors

Enis Sınıksaran

M. Hakan Satman

Publication Date July 13, 2007
Published in Issue Year 2007 Volume: 5 Issue: 1

Cite

APA Sınıksaran, E., & Satman, M. H. (2007). Çoklu Regresyon Uçdeğerlerinin Teşhisçisi Olarak Çanta Çiziti. İstatistik Araştırma Dergisi, 5(1), 35-48.