रैखिक प्रतिगमन - प्रतिशत सुधार या एम/एस के रूप में प्रतिक्रिया चर?

image

मैं एक डेटा सेट पर आँकड़े बनाने की कोशिश कर रहा हूँ जिसमें प्रशिक्षण व्यवस्था का पालन करने से पहले और बाद के समय के साथ 8 अलग-अलग रन दूरी शामिल हैं और दूरी के आधार पर सुधारों पर एक रैखिक प्रतिगमन करता हूँ (सभी समाप्ति समय में गिरावट आई है)। मुझे संदेह है कि क्या प्रतिशत सुधार के लिए रूपांतरण का उपयोग किया जाए या एम/एस जैसे चर का उपयोग किया जाए और फिर विभिन्न दूरी समूहों के बीच तुलना करने में सक्षम होने के लिए रन टाइम 1 और रन टाइम 2 घटाया जाए। स्पष्ट रूप से पूर्ण समय अंतर बहुत बड़ा नहीं है, क्योंकि लंबी दूरी में स्वाभाविक रूप से अधिक सुधार होता है। लेकिन मैंने पढ़ा है कि रैखिक प्रतिगमन में प्रतिक्रिया चर के रूप में प्रतिशत सुधार में रूपांतरण की सलाह नहीं दी जाती है। मैं कैसे आगे बढ़ सकता हूं?

फ्रैंक हैरेल इस पोस्ट में प्रतिशत और प्रतिशत अंतर का उपयोग करने के खिलाफ कुछ तर्क प्रस्तुत करते हैं। उदाहरण के लिए, समरूपता की अंतर्निहित कमी:

जब कोई मात्रा दोगुनी हो जाती है, तो वह आधी होकर अपने मूल मूल्य पर वापस आ जाती है। जब इसमें 100% की वृद्धि होती है तो यह 50% कम होकर अपने मूल मूल्य पर वापस आ जाता है... 33.33% की वृद्धि 25% की कमी से संतुलित होती है, 4/3 के कारक से वृद्धि एक की कमी से संतुलित होती है 3/4 का कारक।

या "प्रतिशत परिवर्तन" का वास्तव में क्या मतलब है: कुछ आधार रेखा से प्रतिशत परिवर्तन, या प्रतिशत अंकों में अंतर:

प्रतिशत परिवर्तन में प्रतिशत से भी अधिक समस्याएं हैं। मैंने अक्सर 'स्ट्रोक की संभावना 50% बढ़ गई है' जैसे बयानों से भ्रम देखा है। यदि आधार स्ट्रोक संभावना 0.02 थी तो क्या स्पीकर का मतलब है कि यह अब 0.52 है? बहुत संभावना नहीं है, लेकिन आप निश्चित नहीं हो सकते।

प्रशिक्षण के बाद और पूर्व-प्रशिक्षण के समय के अनुपात का मूल्यांकन करना कम अस्पष्ट होगा, यदि आपके पास केवल वे दो समय बिंदु हैं। इसमें शामिल समय में छोटे सापेक्ष अंतर के साथ, मुझे संदेह है कि आपके पास अभी भी आपके मॉडल पूर्वानुमानों के आसपास सामान्य रूप से वितरित त्रुटियों के काफी करीब होंगे। समय के लघुगणकीय पैमाने में काम करना एक संबंधित विकल्प है (अनुपात का लॉग व्यक्तिगत लघुगणक के बीच का अंतर है), जो उपयोगी हो सकता है यदि प्रशिक्षण-संबंधी अंतर बड़े हों या मॉडल अधिक जटिल हों।

एक चेतावनी: यदि एक ही व्यक्ति का मूल्यांकन कई दौड़ दूरी पर किया गया था, तो आपको उन अंतर-व्यक्तिगत सहसंबंधों को ध्यान में रखना होगा। मजबूत मानक त्रुटियां, सामान्यीकृत न्यूनतम वर्ग, या मिश्रित मॉडल संभावनाएं हैं।

आपके द्वारा मापा गया मौलिक परिणाम चर समय ($t$) है, इसलिए पहला विचार केवल $t$, या बल्कि $ का उपयोग करना होगा \Delta t$ ("उपचार" से पहले और बाद के बीच का समय अंतर।

आप इस समय को गति (एम/एस) में परिवर्तित करने का भी उल्लेख करते हैं। हालांकि, किसी दी गई दूरी के लिए, यह इसका उलटा है समय ($\frac 1 t$) (एक स्केलिंग स्थिरांक के भीतर, क्योंकि उस दूरी पर सभी विषयों के लिए दूरी स्थिर है)। t_1} )$, या आप $(\frac {s2-s1} {s1})$ की गति के लिए ऐसा कर सकते हैं। यह आपके प्रश्न से स्पष्ट नहीं है कि आप किस पर विचार कर रहे हैं?

पिछले उत्तर में आपत्ति व्यक्त की गई थी प्रतिशत का उपयोग करने के बारे में परिवर्तन। मैं इन आपत्तियों को साझा करता हूं। हालांकि मैं एक और कारण जोड़ूंगा जो यह है कि यह प्रतिशत परिवर्तन सापेक्ष होगा, यानी प्रत्येक विषय के लिए अलग-अलग समय होगा। इसलिए 1 एकल प्रतिशत अंक का मतलब प्रत्येक विषय के लिए कुछ अलग होगा (या अलग ढंग से कहा जाए, तो 1 परिवर्तन प्रत्येक विषय के लिए एक अलग प्रतिशत होगा। अब आपके पास अपने सभी मापों के लिए एक स्थिर पैमाना नहीं है)।

यह कहने के बाद , आप कहते हैं कि आप "दूरी के आधार पर सुधारों पर" प्रतिगमन करना चाहते हैं। मेरा मानना ​​है कि आप दूरी के एक फलन के रूप में सुधार का एक रैखिक प्रतिगमन (ऊपर उल्लिखित 4 संभावित तरीकों में से एक के रूप में व्यक्त) करना चाहते हैं?

इस मामले में, चर का उचित विकल्प इस पर निर्भर हो सकता है कि कौन सा देता है आप "अधिक रैखिक" संबंध। और इसके लिए, 4 संभावित विकल्प समान व्यवहार नहीं करेंगे।

यदि आपकी विभिन्न दूरियाँ एक बड़ी दूरी तय करती हैं (उदाहरण के लिए से)

Ask AI
#1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 #35 #36 #37 #38 #39 #40 #41 #42 #43 #44 #45 #46 #47 #48 #49 #50 #51 #52 #53 #54 #55 #56 #57 #58 #59 #60 #61 #62 #63 #64 #65 #66 #67 #68 #69 #70