सोमवार, ५ जुलै, २०२१

प्रतिगमन विश्लेषण | Regression Analysis

 

प्रतिगमन विश्लेषण (Regression Analysis)

प्रतिगमन हे सांख्यिकीतील अतिशय महत्त्वाचे तंत्र आहे. त्याच्या मदतीने अपेक्षित मूल्य माहीत करून घेता येते. या पूर्वी आपण भिन्न परिवर्त्यात असणाऱ्या सहसंबंधांचा अभ्यास केला, यावरून एक बाब स्पष्ट झाली की, भिन्न परिवर्त्यात सहसंबंध असतो तेव्हा ती परिवर्ते परस्परांवर अवलंबून असतात तसेच ती परस्परांवर परिणाम करणारी असतात. उदाहरणार्थ, जाहिरात आणि विक्री यांच्यात सहसंबंध असेल तर दिलेल्या जाहिरातीच्या मदतीने आपण अपेक्षित विक्री माहीत करू शकतो किंवा इच्छित विक्रीसाठी अपेक्षित जाहिरात खर्च माहीती करून घेता येते. तशाच प्रकारे बुद्धिमत्तेचा आणि शैक्षणिक संपादन यांचा संबंध असेल तर बुद्धीमत्तेनुसार अपेक्षित शैक्षणिक संपादनाचा अंदाज बांधता येतो.

      थोडक्यात प्रतिगमन हे एक असे सांख्यिकी तंत्र आहे ज्याच्या मदतीने आपण एका परिवर्त्याची मूल्ये दिली असताना त्यांच्या मदतीने दुसऱ्या परिवर्त्याची माहीत नसणारे किंवा अपेक्षित मूल्य (Expected value) जाणून घेता येते.

The statistical tool with the help of which we are in a position to estimate (or predict) the unknown values of one variable from known value of another variables called regression.

प्रतिगमनात दोन परीवात्यातील अपेक्षित बदल स्पष्ट केला जातो. तसेच त्याच्या मदतीने अंदाज वर्तविता येतो किंवा अपेक्षित मूल्य माहीत करून घेता येते.

Regression analysis is used to study the relationship between two or more variables. Moreover, the regression technique is used to observe changes in the dependent variable with changes in the independent variables.

दोन किंवा अधिक परीवर्त्यामधील सहसंबंधांचा अभ्यास करण्यासाठी प्रतिगमन विश्लेषणाचा उपयोग केला जातो. शिवाय, स्वतंत्र परीवार्त्यांमधील बदलामुळे अवलंबी परीवार्त्यातील बदलांचे अवलोकन करण्यासाठी प्रतिगमन तंत्राचा वापर केला जातो.

प्रतिगमन या तंत्राचा उपयोग सर्वप्रथम 1877 मध्ये सर फ्रांसिस गाल्टन यांनी केला. प्रतिगमनाच्या एका अभ्यासात त्यांनी 1000 पित्यांच्या व त्यांच्या मुलांच्या उंचीचा अभ्यास केला. त्यात त्यांना असे आढळून आले की, उंच पित्याची मुले उंच असतात तर बुटक्या व्यक्तींची मुले बुटकी असतात. तसेच उंच पित्याच्या मुलांची उंची ही पित्यांच्या उंचीपेक्षा कमी असते तर बुटक्या पित्यांच्या मुलांची सरासरी उंची ही पित्यांच्या उंचीपेक्षा जास्त असते. अलीकडच्या काळात अपेक्षित मूल्य माहीत करून घेण्यासाठी किंवा अंदाज वर्तविण्यासाठी या तंत्राचा मोठ्या प्रमाणावर वापर होत आहे. त्यामुळे याला प्रतिगमन रेषा (Regression line) म्हणण्याऐवजी अपेक्षारेषा (Estimate lines) असेही म्हटले जाते.

प्रतिगमन विश्लेषणाचे निकष:

• प्रतिगमन हे मुळात दोन परिवर्त्यामधील संबंध आलेखाव्दारे (त्यामध्ये सर्वात उत्तम म्हणजे सरळ रेषा असते) निर्धारित करण्याची प्रक्रिया आहे. याव्दारे, सहसंबंध गुणांक हा प्रतिगमन रेषेच्या आसपास असणाऱ्या अनुक्रमिक बिदुंचा (निरीक्षणे) संच म्हणून पाहिले जाऊ शकते.

यामध्ये परिवर्त्य x (जे आलेखामध्ये x अक्षावर आहे) आणि परिवर्त्य y (जे आलेखामध्ये y अक्षावर आहे) यांचा वापर होतो.

कधीकधी x परिवर्त्य स्वतंत्र परिवर्त्य म्हणून घेतले जाते आणि y परिवर्त्यास अवलंबी परिवर्त्य म्हणून घेतले जाते जे काही प्रमाणात दिशाभूल करणारे आहे. त्याऐवजी x परिवर्त्यास भाकीत परिवर्त्य आणि y परिवर्त्यास निकष परिवर्त्य म्हणू शकतो.

प्रतिगमन रेषेचे वर्णन करण्यासाठी आपणास रेषांची स्थिती (slope) आणि अनुलंब अक्ष (y अक्ष) स्पर्श करते अशा बिंदूची आवश्यकता असते.

या माहितीचा वापर करून, परिवर्त्य x वरील कोणत्याही गुणांकासाठी परिवर्त्य y वरील अपेक्षित गुणांकाचा अंदाज बांधणे शक्य आहे. याच्या आधारे आपण अचूक भाकीत करू शकतो.

• प्रतिगमन विश्लेषणामध्ये प्रमाण त्रुटी ही एक संज्ञा आहे जी कोणत्याही आकडेवारीच्या अंदाजाच्या विचलनतेचे वर्णन करण्यासाठी वापरली जाते. तर रेषांच्या स्थितीची (slope) मानक त्रुटी, व्यत्ययाची मानक त्रुटी आणि इ. मानक त्रुटी मानक विचलनाशी सारखी आहे आणि अंदाजानुसार कोणत्याही संभाव्य व्याप्ती सूचित करते.

• प्रतीगमन विश्लेषणाच्या मुलभूत संकल्पना जितक्या चांगल्या समजतील तितके आपले नंतरचे कार्य सोपे होईल.

प्रतिगमन तंत्राचा उपयोग सर्वच सामाजिक, नैसर्गिक शास्त्रात होत असतो. मानसशास्त्र हे एक सामाजिकशास्त्र असल्यामुळे प्रतिगमन तंत्राचा उपयोग मानसशास्त्रात सुध्दा होतो. उदाहरणार्थ बुद्धिमत्ता (x) व शैक्षणिक संपादन (y) या परिवर्त्यात अतिशय जवळचा संबंध असतो. त्यामुळे x परिवर्त्यात झालेला बदल माहीत झाला तर y परिवर्त्यात होणारा अपेक्षित बदल माहीत करून घेता येतो. तसेच कर आणि वस्तूंच्या किंमती याचाही जवळचा संबंध असतो. त्यामुळे करात होणाऱ्या बदलामुळे वस्तूच्या किंमतीत काय बदल होऊ शकतो. याचा अंदाज वर्तविता येतो. त्यामुळे प्रतिगमन तंत्राचा उपयोग मानसशास्त्रज्ञ, सांख्यिकीय तज्ञ व संशोधक ह्या सर्वाना होतो, तसाच तो इतर सामाजिक शास्त्रे, पदार्थ विज्ञान व नैसर्गिकशास्त्रे यांना सुध्दा होतो.

प्रतिगमन तंत्र फक्त दोनच परीवार्त्यांना लागू पडते असे नाही, तर ते दोनपेक्षा अधिक परीवार्त्यांनाही लागू पडते, पण परीवार्त्याच्या संख्येच्या वाढीबरोबर हे तंत्र अधिक क्लिष्ट व अवघड होते. म्हणून सामान्यतः दोन परीवार्त्याचा विचार करून प्रतिगमन तंत्र लक्षात घेतले जाते. दोन परीवार्त्यातील प्रतिगमनाच्या अभ्यासाला सुगम प्रतिगमन (Simple regression) असे म्हणतात.

सहसंबंध आणि प्रतिगमनातील फरक

(i) सहसंबंध आणि प्रतिगमनातील महत्वाचा फरक म्हणजे सहसंबंधात भिन्न परीवर्त्यात असणाऱ्या संबंधाच्या गुणोत्तराचा (Ratio) विचार केला जातो. तर प्रतिगमन विश्लेषणात सहसंबंधाच्या स्वरूपाचा (Nature) विचार केला जातो.

(ii) सहसंबंध आणि प्रतिगमनातील दुसरा फरक म्हणजे प्रतिगमनाच्या मदतीने भिन्न परिवर्त्यातील बदलाचे कारण आणि परिणाम लक्षात येते. तशा प्रकारचे कारण किंवा परिणाम सहसंबंध या तंत्राव्दारे लक्षात येत नाही.

उदाहरणार्थ किंमत आणि मागणीत जवळचा संबंध असतो व त्याचे स्वरूप काय असते व त्यांच्या संबंधाचे गुणोत्तर काय हे सहसंबंध गुणांकामुळे लक्षात येते पण त्यातील बदलाचे कारण आणि त्याचा परिणाम मात्र लक्षात येत नाही, तेव्हा प्रतिगमन विश्लेषणाचा आधार घ्यावा लागतो. प्रतिगमनात नेहमी एक परीवर्त्य हे स्वतंत्र (Independent) व दुसरे परीवर्त्य अवलंबी (Dependent) गृहित धरलेले असते. ज्या परिवर्त्याचा दुसऱ्या परिवर्त्यावर परिणाम होतो किंवा ते दुसऱ्या परिवर्त्यावर परिणाम करते त्या परिवर्त्यास स्वतंत्र परीवर्त्य म्हणतात व जे परीवर्त्य दुसऱ्या परिवर्त्यामुळे प्रभावित होते किंवा त्यावर इतर परिवर्त्याचा परिणाम होतो त्यास अवलंबी परीवर्त्य म्हणतात. प्रतिगमन विश्लेषणात नेहमी स्वतंत्र परिवर्त्याच्या मदतीने अवलंबी परिवर्त्याचे मूल्य माहीत केले जाते.

प्रतिगमन रेषा (Regression Lines )

जेव्हा दोन परीवर्त्यांचा विचार केला जातो तेव्हा दोन प्रतिगमन रेषा मिळतात. त्यालाच y परीवर्त्यांचे x परिवर्त्यावरील प्रतिगमन रेषा (Regression Line of y on x) x परिवर्त्याची y परिवर्त्यावरील प्रतिगमन रेषा (Regression Line of x on y) असे म्हणतात. जेव्हा आपण x परिवर्त्याची y परिवर्त्यावर प्रतिगमन रेषा काढतो तेव्हा दिलेल्या परिवर्त्याचे अपेक्षित मूल्य माहीत केले जाते. म्हणजे तेव्हा y परीवर्त्य हा अवलंबी परीवर्त्य तर x हा स्वतंत्र परीवर्त्य असतो. याउलट जेव्हा x परिवर्त्याची y परिवर्त्यावर प्रतिगमन रेषा काढली जाते तेव्हा त्यातील x हा परीवर्त्य अवलंबी व y परीवर्त्य हा स्वतंत्र परिवर्त्य असतो. थोडक्यात अवलंबी परिवर्त्याची स्वतंत्र परिवर्त्यावर प्रतिगमन रेषा किंवा समीकरण तयार केले जाते.

जेव्हा दोन परीवर्त्यातील सहसंबंध रेषीय असतो तेव्हा त्याच्या सहसंबंध गुणांकांचे उत्तर ±1 असते, तेव्हा प्रतिगमनाची एकच रेषा मिळते, कारण त्या दोन्ही रेषा एकच असतात. याचाच अर्थ असा की, दोन भिन्न परीवर्त्याच्या दोन प्रतिगमन रेषा परस्परांपासून जेवढ्या दूर असतात तेवढा त्या परिवर्त्यातील सहसंबंध गुणांक कमी असतो. जेव्हा दोन परीवर्त्यातील सहसंबंध गुणांकाचे उत्तर '0' (शून्य) असते. म्हणजे त्या दोन परिवर्त्यात कसलाही संबंध नसतो तेंव्हा त्या दोन परीवर्त्यांच्या प्रतिगमन रेषा 0x अक्षला आणि 0y अक्षला समांतर असतात.

प्रतिगमनाच्या संदर्भात आणखी एक महत्त्वाची बाब म्हणजे जेव्हा दोन प्रतिगमन रेषा ज्या बिंदूत परस्परांना छेदतात त्या बिंदूला x आणि y परिवर्त्याची सरासरी लक्षात येते, जेव्हा आपण छेदन 0x अक्षावर लंब टाकतो तेव्हा x परिवर्त्याची सरासरी व 0y अक्षावर लंब टाकला असता y परिवर्त्याची सरासरी लक्षात येते.

प्रतिगमन समीकरणे (Regression Equations):

प्रतिगमन रेषांनाच बिजगणितीय भाषेत प्रतिगमन समीकरणे म्हणतात. त्यामुळे दोन परीवर्त्यांच्या दोन प्रतिगमन रेषा असतात तेव्हा त्यांची दोन प्रतिगमन समीकरणे असतात. त्यालाच x चे y वरील समीकरण व y चे x वरील समीकरण म्हणतात. x चे y वरील समीकरणात x परीवर्त्य हा अवलंबी तर y परीवर्त्य स्वतंत्र असतो. याउलट y चे x वरील समीकरणात y हा अवलंबी व x हा स्वतंत्र घटक असतो. थोडक्यात अवलंबी परीवर्त्यांची स्वतंत्र परिवर्त्यावर समीकरणे तयार केली जातात. ती समीकरणे व रेषा पुढील प्रमाणे लिहिल्या जातात.

Regression line of x on y

or Regression Equation of x on y

x = a + by

Regression line of y on x

Regression equation of y on x

y = a + bx

ज्या परिवर्त्याचे ते समीकरण किंवा रेषा असते तो परीवर्त्य नेहमीच अवलंबी परीवर्त्य असतो व ज्या परिवर्त्यावर ते समीकरण असते तो परीवर्त्य नेहमीच स्वतंत्र असतो. वरील प्रतिगमन समीकरणातील, 'a' आणि 'b' ही स्थिर मूल्ये असून ती मूल्ये प्रतिगमन समीकरण रेषांची जागा दर्शवितात. यातील 'a' घटक म्हणजे स्वतंत्र परीवर्त्य 0 (शून्य) असताना अवलंबी परिवर्त्याचे असणारे मूल्य होय. 'b' म्हणजे स्वतंत्र परिवर्त्यात एका संख्येने बदल झाला असता अवलंबी परिवर्त्यात जो सरासरी बदल होतो ते मूल्य होय. त्यामुळे 'b' चे मूल्य हे प्रतिगमन रेषांची स्थिती (Slope) दर्शविते. त्यामुळे वरील समीकरणातील 'a' आणि 'b' ची मूल्य माहीत केली असता प्रतिगमन रेषा माहित करून घेता येते पण प्रश्न असा आहे की ही मूल्ये माहीत कशी करायची. त्यासाठी जी पध्दती उपयोगात आणली जाते तिला न्यूनतम वर्ग पध्दती (Least Square Method) म्हणतात. या पद्धतीने 'a' 'b' ची मूल्ये काढताना खालील समीकरणांचा उपयोग केला जातो.

Y-`Y = byx (X-`X)

X-`X = bxy (Y-`Y)

byx = nSxy-(Sx)(Sy)/ nSx2 - (Sx)2

bxy = nSxy-(Sx)(Sy)/ nSy2 - (Sy)2

`X = the mean of x series (x मालिकेचे मध्यमान)

`Y = the mean of y series (y मालिकेचे मध्यमान)

वरील समीकरणातील मूल्ये x y परिवर्त्याच्या मदतीने व दिलेल्या मूल्यांच्या सहाय्याने काढली जातात. त्यातील N म्हणजे निरीक्षण केलेली संख्या होय. वरील समीकरणाच्या किंवा सूत्राच्या सहाय्याने प्रतिगमन रेषा किंवा समीकरणे कशी काढली जातात ते खालील उदाहरणाच्या सहाय्याने लक्षात येईल. खालील आकडेवारीच्या मदतीने प्रतिगमन रेषा माहीत करून घेऊ या.

x: 6, 2, 10, 4, 8

y: 9, 11, 5, 8, 7

X

Y

X2

Y2

XY

Predicted score (x')

Predicted score (y')

6

2

10

4

8

9

11

5

8

7

36

4

100

16

64

81

121

25

64

49

54

22

50

32

56

 

 

ΣX =30

ΣY =40

Σx2 220

Σy2 =340

Σxy =214    

 

 

`X = SX/n = 30/5 = 6

`Y = SY/n = 40/5 = 8

Y-`Y = byx (X -`X)    : (Y परिवर्त्याचा X परिवर्त्यावरील प्रतिगमन गुणांक)

byx = nSxy - (Sx)(Sy)/ nSx2  - (Sx)2

            byx = 5*214 - (30*40)/ 5*220 - (30)2   

            byx = 1070 – 1200 / 1100 - 900

            byx = -130 / 200

            byx = -0.65

Y -`Y = byx (X -`X) सदर समिकरणात किंमती ठेऊन

Y – 8 = - 0.65 (X - 6)

Y – 8 = - 0.64X -3.9

      Y = - 0.64X -3.9+8

      Y = - 0.64X + 4.1

X-`X = bxy (Y-`Y)   : (X परिवर्त्याचा Y परिवर्त्यावरील प्रतिगमन गुणांक)

bxy = nSxy-(Sx)(Sy)/ nSy2 - (Sy)2

            bxy = 5*214 - (30*40)/ 5*340 - (40)2   

            bxy = 1070 – 1200 / 1700 - 1600

            bxy = -130 / 100

            bxy = -1.3

X-`X = bxy (Y -`Y) सदर समिकरणात किंमती ठेऊन

X – 6 = - 1.3 (Y - 8)

X – 6 = - 1.3X -10.4

      Y = - 1.3X -10.4+6

      Y = - 1.3X + 4.4

प्रतिगमन गुणांकाच्या संदर्भात खालील बाबी लक्षात घेतल्या पाहिजेत.

(i) दोन्ही प्रतिगमन गुणांकाची चिन्हे (byx bxy) सारखी असतात. म्हणजेच ती धन किंवा ऋण असावीत. याचाच अर्थ एक गुणांक धन व दुसरा ऋण असा नसतो.

(ii) ज्या चिन्हांची प्रतिगमन गुणांक असतात, त्याच चिन्हांचा सहसंबंध गुणांक असतो. जेव्हा प्रतिगमन गुणांक ऋण (-) असतो तेव्हा सहसंबंध गुणांकही ऋणच असतो.

 

                      (सदर लेखातील चित्र, इमेज Google वरून साभार)

संदर्भ:

Chatterjee and Hadi (2006). Regression Analysis by Example, New Jersey: John Wiley & sons

Freund, Wilson and Ping Sa (2006). Regression Analysis, San Diego California: Elsevier Inc.

Chase, Clinton L. (1976). Elementary Statistical Procedures, International Student Edition, Tokyo: McGraw-Hill

Cochran, W.G. and Cox, G.M. (1957). Experimental Designs, 2nd ed., New York: Wiley

Edwards, A. L. (1960). Experimental Design in Psychological Research, rev. ed., New York: Rinehart

Edwards, A.L. (1967). Statistical Methods for the Behavioural Sciences, 2nd ed., New York: Holt Rinehart and Winston

Edwards, A. (1985). Experimental Design in Psychological Research. New York: Harper and Row.

Guilford, J.P. and Fruchter, B. (1985). Fundamental Statistics in Psychology and Education. New Delhi: McGraw-Hill.

Ferguson, G. A. (1971). Statistical Analysis in Psychology and Education, 3rd ed., Kogakusha, Tokyo: McGraw-Hill

Garrett, H. E. (1971). Statistics in Psychology and Education, 6th Indian ed., Bombay: Vakils, Feffer and Simon

Guilford, J.P. (1954). Psychometric Methods, 2nd ed., New Delhi: Tata McGraw Hill Guilford, J.P, (1973). Fundamental Statistics in Psychology and Education, 5th International Student edition, New York: McGraw-Hill

Mangal S.K. (2013). Statistics in Psychology and Education, 2nd edition, Delhi: PHI Learning Pvt.

Misra, M. (2016). Statistics for Behavioural and Social Sciences. Sage Publication India Pvt. Ltd.

Veeraraghhavan, Vimala and Shetgovekar, S. (2016). Textbook of Parametric and nonparametric Statistics. Sage Publication India Pvt. Ltd.

कोणत्याही टिप्पण्‍या नाहीत:

टिप्पणी पोस्ट करा

Thank you for your comments and suggestions

रोजगारक्षम कौशल्ये | Employability Skills

  रोजगारक्षम कौशल्ये | Employability Skills      एम्प्लॉयमेंट असेसमेंट कंपनी “एस्पायरिंग माइंड्स” च्या अहवालानुसार, देशातील 80 टक्क्यांहू...