रैखिक प्रतिगमन - प्रतिशत सुधार या एम/एस के रूप में प्रतिक्रिया चर?
मैं एक डेटा सेट पर आँकड़े बनाने की कोशिश कर रहा हूँ जिसमें प्रशिक्षण व्यवस्था का पालन करने से पहले और बाद के समय के साथ 8 अलग-अलग रन दूरी शामिल हैं और दूरी के आधार पर सुधारों पर एक रैखिक प्रतिगमन करता हूँ (सभी समाप्ति समय में गिरावट आई है)। मुझे संदेह है कि क्या प्रतिशत सुधार के लिए रूपांतरण का उपयोग किया जाए या एम/एस जैसे चर का उपयोग किया जाए और फिर विभिन्न दूरी समूहों के बीच तुलना करने में सक्षम होने के लिए रन टाइम 1 और रन टाइम 2 घटाया जाए। स्पष्ट रूप से पूर्ण समय अंतर बहुत बड़ा नहीं है, क्योंकि लंबी दूरी में स्वाभाविक रूप से अधिक सुधार होता है। लेकिन मैंने पढ़ा है कि रैखिक प्रतिगमन में प्रतिक्रिया चर के रूप में प्रतिशत सुधार में रूपांतरण की सलाह नहीं दी जाती है। मैं कैसे आगे बढ़ सकता हूं?
फ्रैंक हैरेल इस पोस्ट में प्रतिशत और प्रतिशत अंतर का उपयोग करने के खिलाफ कुछ तर्क प्रस्तुत करते हैं। उदाहरण के लिए, समरूपता की अंतर्निहित कमी:
जब कोई मात्रा दोगुनी हो जाती है, तो वह आधी होकर अपने मूल मूल्य पर वापस आ जाती है। जब इसमें 100% की वृद्धि होती है तो यह 50% कम होकर अपने मूल मूल्य पर वापस आ जाता है... 33.33% की वृद्धि 25% की कमी से संतुलित होती है, 4/3 के कारक से वृद्धि एक की कमी से संतुलित होती है 3/4 का कारक।
या "प्रतिशत परिवर्तन" का वास्तव में क्या मतलब है: कुछ आधार रेखा से प्रतिशत परिवर्तन, या प्रतिशत अंकों में अंतर:
प्रतिशत परिवर्तन में प्रतिशत से भी अधिक समस्याएं हैं। मैंने अक्सर 'स्ट्रोक की संभावना 50% बढ़ गई है' जैसे बयानों से भ्रम देखा है। यदि आधार स्ट्रोक संभावना 0.02 थी तो क्या स्पीकर का मतलब है कि यह अब 0.52 है? बहुत संभावना नहीं है, लेकिन आप निश्चित नहीं हो सकते।
प्रशिक्षण के बाद और पूर्व-प्रशिक्षण के समय के अनुपात का मूल्यांकन करना कम अस्पष्ट होगा, यदि आपके पास केवल वे दो समय बिंदु हैं। इसमें शामिल समय में छोटे सापेक्ष अंतर के साथ, मुझे संदेह है कि आपके पास अभी भी आपके मॉडल पूर्वानुमानों के आसपास सामान्य रूप से वितरित त्रुटियों के काफी करीब होंगे। समय के लघुगणकीय पैमाने में काम करना एक संबंधित विकल्प है (अनुपात का लॉग व्यक्तिगत लघुगणक के बीच का अंतर है), जो उपयोगी हो सकता है यदि प्रशिक्षण-संबंधी अंतर बड़े हों या मॉडल अधिक जटिल हों।
एक चेतावनी: यदि एक ही व्यक्ति का मूल्यांकन कई दौड़ दूरी पर किया गया था, तो आपको उन अंतर-व्यक्तिगत सहसंबंधों को ध्यान में रखना होगा। मजबूत मानक त्रुटियां, सामान्यीकृत न्यूनतम वर्ग, या मिश्रित मॉडल संभावनाएं हैं।
आपके द्वारा मापा गया मौलिक परिणाम चर समय ($t$) है, इसलिए पहला विचार केवल $t$, या बल्कि $ का उपयोग करना होगा \Delta t$ ("उपचार" से पहले और बाद के बीच का समय अंतर।
आप इस समय को गति (एम/एस) में परिवर्तित करने का भी उल्लेख करते हैं। हालांकि, किसी दी गई दूरी के लिए, यह इसका उलटा है समय ($\frac 1 t$) (एक स्केलिंग स्थिरांक के भीतर, क्योंकि उस दूरी पर सभी विषयों के लिए दूरी स्थिर है)। t_1} )$, या आप $(\frac {s2-s1} {s1})$ की गति के लिए ऐसा कर सकते हैं। यह आपके प्रश्न से स्पष्ट नहीं है कि आप किस पर विचार कर रहे हैं?
पिछले उत्तर में आपत्ति व्यक्त की गई थी प्रतिशत का उपयोग करने के बारे में परिवर्तन। मैं इन आपत्तियों को साझा करता हूं। हालांकि मैं एक और कारण जोड़ूंगा जो यह है कि यह प्रतिशत परिवर्तन सापेक्ष होगा, यानी प्रत्येक विषय के लिए अलग-अलग समय होगा। इसलिए 1 एकल प्रतिशत अंक का मतलब प्रत्येक विषय के लिए कुछ अलग होगा (या अलग ढंग से कहा जाए, तो 1 परिवर्तन प्रत्येक विषय के लिए एक अलग प्रतिशत होगा। अब आपके पास अपने सभी मापों के लिए एक स्थिर पैमाना नहीं है)।
यह कहने के बाद , आप कहते हैं कि आप "दूरी के आधार पर सुधारों पर" प्रतिगमन करना चाहते हैं। मेरा मानना है कि आप दूरी के एक फलन के रूप में सुधार का एक रैखिक प्रतिगमन (ऊपर उल्लिखित 4 संभावित तरीकों में से एक के रूप में व्यक्त) करना चाहते हैं?
इस मामले में, चर का उचित विकल्प इस पर निर्भर हो सकता है कि कौन सा देता है आप "अधिक रैखिक" संबंध। और इसके लिए, 4 संभावित विकल्प समान व्यवहार नहीं करेंगे।
यदि आपकी विभिन्न दूरियाँ एक बड़ी दूरी तय करती हैं (उदाहरण के लिए से)