Statistics is fun!

Statistics (सांख्यिकी) हा विषय बऱ्याच लोकांना त्रास देतो, कारण तो अतिशय रुक्ष आणि कठीण आहे असं बऱ्याच लोकांना वाटतं. दोष त्यांचा नसून तो शिकवणाऱ्या लोकांचा किंवा शिकवण्याच्या पद्धतीचा आहे. खरं तर स्टॅटिस्टिक्स हा application-oriented विषय आहे.

 

स्टॅटिस्टिक्स चा उद्देशच मुळात अनुमान काढणे आणि त्याप्रमाणे निर्णय घेणे / कृती करणे हा असतो.

 

statistics

stəˈtɪstɪks/

noun

  1. the practice or science of collecting and analysing numerical data in large quantities, especially for the purpose of inferring proportions in a whole from those in a representative sample.

 

​So statistics is an “applied” science​.

स्टॅटिस्टिक्स विषय रटाळ आणि दुर्बोध होण्याचं मुख्य कारण म्हणजे Big Picture समजावून न घेता, किंवा purpose लक्षात न घेता थेट calculations वर भर दिला जातो. Calculate केलेल्या स्टॅटिस्टिक्स चं interpretation (“भावार्थ”!) बऱ्याच लोकांना शिकवलं जातच नाही.

Statistics is a tool. If you want right result, use right tool and right metric. पण त्यासाठी स्टॅटिस्टिक्स calculate करता येणे महत्वाचे नसून स्टॅटिस्टिक्स चा अर्थ समजणे महत्वाचे आहे.

मी जेव्हा वेगवेगळ्या लोकांना स्टॅटिस्टिक्स basics शिकवायचा प्रयत्न करतो तेव्हा एक case study किंवा scenario घेऊन प्रत्येक स्टॅटिस्टिक ची गरज किंवा उपयोग सांगायचा प्रयत्न करतो. बऱ्याच लोकांना तसा approach हवा असतो असं जाणवतं.

एक उदाहरण घेऊ. Average हे मुख्यतः ३ प्रकारचे असते –

(१) Mean – usual meaning of average. For example, mean of 10 and 20 is 15.

(२) Mode – the number that occurs most frequently in a given data set

(३) Median – when data set is arranged in increasing order, the number at middle place is median. For example, median of 5,2,11,4 and 1 is 4 because it is the middle position number (after arranging in ascending order)

पण त्यांचा अर्थ किंवा फरक समजला नाही आणि तीनही “on average” अशा गुळमुळीत cover खाली वापरून वाट्टेल तसा अर्थ काढता येऊ शकतो.

पण ह्या averages चा उद्देश माहिती पुरवणे आणि inference (निष्कर्ष) काढायला मदत करणे हा असतो. आता हेच ३ average वापरून एक उदाहरण देतो. Story behind the numbers.

हे दोन data set दिले आणि average calculate करून निष्कर्ष काढा असे सांगितले तर?

(१) १३, ०,०,७,३१, २६९, ३०

(२) ३८, ५६, ४९, १५२, ५१, ४

दोन्ही data set ची बेरीज आणि mean सारखेच आहे. ३५०/७ = ५०. पण म्हणून असा निष्कर्ष काढणे चुकीचे ठरेल की दोन्हीचा performance सारखाच आहे.

आता असं समजा की हे दोन data set हे ७ innings मधले batting scores आहेत. दोन्ही बॅट्समन चे average सारखेच आहे, पण नुसते आकडे बघूनही समजेल की त्यांच्या performance मध्ये खूप फरक आहे.

Average सारखेच असले तरी consistency मध्ये खूपच फरक आहे. ह्या उदाहरणातला “प्लेयर १” हा बेधडक शैलीमध्ये खेळतो, आणि बरेचदा लवकर आउट होतो; पण क्वचित प्रसंगी इतक्या धावा काढतो की त्याचे average ५० होते.

ह्या उदाहरणातला “प्लेयर २” खूप consistent आहे. सातत्याने ४०-५० च्या आसपास धावा करतो. क्वचित प्रसंगी लवकर आउट होतो पण त्याप्रमाणे शतकही झळकावतो!

म्हणजेच पहिला “सेहवाग” आहे तर दुसरा “द्रविड”! हे आपण “infer” करू शकलो कारण data set छोटा होता आणि नुसतं पाहून अंदाज येऊ शकला. पण data set खूप मोठा असेल तर?

अशा वेळेस mean सोडून इतर दोन average उपयोगी येतात.

Data set (१) आणि (२) ascending order मध्ये arrange करू:.

(१) ०,०,७,१३, ३०, ३१, २६९

(२) ४, ३८, ४९, ५१, ५६, १५२

 

 

आता data set (१) चा median ४था data point आहे, म्हणजे “१३” आहे

तर data set (२) चा median “४९” आहे

 

किंवा data set (१) ची range (सगळ्यात मोठा data point आणि सगळ्यात लहान data point यातला फरक) –> (२६९ – ०) = २६९ आहे. पण data set (२) ची range –> (१५२-४) = १४८ आहे.

 

म्हणजेच data set (१) खूप मोठ्या प्रमाणात swing होतो, किंवा जास्त unpredictable आहे.

Data set (२) narrow range मध्ये swing होतो. किंवा कमी unpredictable आहे, म्हणजेच जास्त predictable/ reliable आहे.

 

पण दोन्ही चं mean सारखेच आहे.

 

आता याचा निष्कर्ष असा काढू शकतो:

१. दोघेही खूप दीर्घ काळ खेळले तर दोघेही सारख्याच एकूण धावा आणि average (mean) धावा करतील

२. सेहवाग काही सामन्यात तुफान फटकेबाजी करून सामना जिंकू देऊ शकतो. तर द्रविड नियमितपणे धावांचा रतीब घालून सामना वाचवू शकतो.

३. म्हणजेच सेहवाग “match winner” तर द्रविड “match saver” म्हणून योगदान देऊ शकतो.

 

आता जर statistics अशा प्रकारे शिकवले तर ते रंजक होऊ शकेल आणि लक्षातही राहील. पण जर ते फक्त २ data set देऊन आणि त्याचा formula देऊन calculate करायला दिले आणि शिकवून झाले, आता अशीच २० उदाहरणं सोडवून practice करा… अशा प्रकारे शिकवले तर ते नक्कीच रुक्ष आणि अर्थशून्य वाटेल.

 

“जर तुम्ही जन्मभर केस वाढवले, तर ५० वर्षात त्या केसांची लांबी इतकी होईल की पृथ्वीला दोन वेढे घालता येईल” किंवा “एक मुंगी दिवस भरात ५६ किलोमीटर चालते” वगैरे छाप statistics हा त्या विषयाचा अपमान आहे. मुळात statistics चा उद्देश  अनुमान काढणे आणि त्याप्रमाणे निर्णय घेणे / कृती करणे हा असतो, असला पाहिजे. उगाच अर्थहीन माहिती “तुम्हाला माहिती आहे का?” या सदरात छापणे म्हणजे statistics नाही. पण अशी माहिती “रंजक” म्हणून छापणारे लोकं ही या जगात आहेत.

 

हेच मुख्य कारण आहे, statistics लोकांना न आवडण्याचे. पण योग्य उदाहरणातून ते समजावले तर खरंच रंजक आहे!

Grant Cardone said: “Average is a failing formula”. Now you would appreciate why “average”, without giving any insight into mean, median, mode, doesn’t convey much.

One more example which is often cited to stress on this notion is as follows:

“A statistician confidently tried to cross a river that was 1 meter deep on average. He drowned.”

Or, as Nassim Nicholas Taleb once explained: there was a person who put his one leg into 60 degree Celsius water bucket and other leg in 5 degree Celsius water bucket, hoping that “on average” his body temperature would be 32-33 degree Celsius. Unfortunately he died.

I have many more examples and anecdotes to explain many concepts in Statistics and make the study interesting. Hopefully I’ll write more on this topic with some advanced concepts and their link with other areas of life.

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Create a free website or blog at WordPress.com.

Up ↑

%d bloggers like this: