शून्य-फुलाए गए डेटा के बजाय एक-फुलाए गए डेटा को संभालना

image

शून्य-फुलाए गए डेटा से निपटने के लिए शून्य-मुद्रास्फीति मॉडल और बाधा मॉडल की आवश्यकता होती है, या काटे गए पॉइसन या एनबी मॉडल का उपयोग करके अध्ययन करना उचित लगता है। हालाँकि, ऐसी स्थिति में जब डेटा में कोई 0 गिनती मौजूद नहीं है और इसके बजाय 1s की संभावित मुद्रास्फीति है, तो इसका इलाज कैसे किया जाता है? क्या इसे शून्य की मुद्रास्फीति के समान माना जाता है, या यह परिदृश्य है जहां घटना बड़ी मात्रा में अवलोकनों (शून्य-मुद्रास्फीति) में नहीं हो रही है, अनुकूलन का विशिष्ट कारण है? (एकेए किसी डेटासेट में एक-मुद्रास्फीति, जहां कोई शून्य नहीं है, मॉडलिंग गणना के संदर्भ में शून्य-फुलाए गए डेटासेट से कैसे भिन्न होती है?)

मुझे नहीं लगता कि आपको "सामान्य स्पष्टीकरण" मिलेगा इस का। आपके विशिष्ट मामले में, मुझे लगता है कि चर में परिवर्तन एक-मुद्रास्फीति को शून्य-मुद्रास्फीति में बदल सकता है। "अस्पताल में भर्ती होने की संख्या" के बजाय आप "पुनरावृत्ति की संख्या" का मॉडल बना सकते हैं।

वर्षों पहले, मेरे पास कुछ एक-बढ़ाया हुआ शून्य डेटा था जिसमें कुछ 0 शामिल थे; मैंने ZINB के एक-फुले हुए संस्करण की काफी खोज की, लेकिन वह नहीं मिला। लेकिन यह आपके मामले से थोड़ा अलग है।

दरअसल, प्रतिगमन में कुछ हालिया विकास हुए हैं जिन्हें वन-फुलाए गए शून्य-ट्रंकेटेड नकारात्मक द्विपद (OIZTNB) और एक-फुलाए गए सकारात्मक पॉइसन (OIPP) मॉडल कहा जाता है। (विवरण यहां देखें)। वे पोइसन और एनबी मॉडल के एक-फुलाए गए संस्करणों की तरह हैं, जहां यह एक संक्षिप्त शून्य प्रतिक्रिया की अनुमति देता है लेकिन लचीले ढंग से एक-गिनती की एक बड़ी उपस्थिति को भी संभालता है।

आर में वनइनफ़्ल पैकेज आपको इन्हें फिट करने की अनुमति देता है सीधे मॉडल (एक ट्यूटोरियल यहां पाया जा सकता है)।

शून्य-मुद्रास्फीति के साथ, इसे एक सरल मिश्रण मॉडल का उपयोग करके व्यवहार किया जाता है और सभी परिणामी गणित और अनुमान नियम शून्य-फुलाए गए मामले के अनुरूप होते हैं। इसे देखने के लिए, सामान्य मामले पर विचार करना संभवतः सबसे सरल है जहां कुछ आधार वितरण के सापेक्ष कुछ मनमाना मूल्य $y \in \mathbb{R}$ "बढ़ाया" जाता है। यदि $f( \ \cdot \ |\theta)$ गैर-फुलाए गए चर के लिए घनत्व/द्रव्यमान फ़ंक्शन का प्रतिनिधित्व करता है (यानी, यह आधार वितरण है) तो $y$-फुलाए गए संस्करण का रूप होगा:

$$f_\text{Inf}(x|\theta, \phi) = \phi \cdot \mathbb{I}(x=y) + (1-\phi) \cdot f(x|\theta),$$

मुद्रास्फीति पैरामीटर का उपयोग करते हुए $0 \leqslant\phi \leqslant 1$। IID अवलोकनों के एक सेट को देखते हुए $X_1,...,X_n \sim \text{IID } f_\text{Inf}(\theta, \phi)$ आपको लॉग-लाइबिलिटी फ़ंक्शन मिलता है:

$ $\ell_\mathbf{x}(\theta, \phi) = n_y \log(\phi + (1-\phi) f(y|\theta)) + (n-n_y) \log(1-\phi) + \sum_{x_i \neq y} f(x_i|\ थीटा),$$

जहाँ $n_y \equiv \sum_{i=1}^n \mathbb{I}(x_i=y)$ की संख्या है $y$-डेटा में मान। $f_* \equiv df/d \theta$ लेने पर यह मिलता है:

$$\begin{संरेखण} \frac{\आंशिक \ell_\mathbf{x}}{\आंशिक \phi} (\थीटा, \phi) &= \frac{n_y (1-f(y|\theta))}{\phi + (1-\phi) f(y|\theta)} - \frac{n-n_y}{1-\phi} , \\[12पीटी] \frac{\आंशिक \ell_\mathbf{x}}{\आंशिक \theta} (\theta, \phi) &= \frac{n_y (1-\phi) f_* (y|\theta)}{\phi + (1-\phi) f(y|\theta)} + \sum_{x_i \neq y} f_* (x_i|\थीटा). \\[6pt] \end{संरेखण}$$

परिणामस्वरूप MLE समीकरणों को हल करता है:

$$\begin{संरेखण} \टोपी{\phi} &= \max \bigg( \frac{n_y/n - f(y|\theta)}{1-f(y|\theta)}, 0 \bigg), \\[6pt] 0 &= (n-n_y) \bigg[ f_* (y|\hat{\theta}) + (1-f(y|\hat{\theta})) \sum_{x_i \neq y} f_* (x_i |\टोपी{\थीटा}) \बड़ा]। \\[6pt] \end{संरेखण}$$

जैसा कि आप देख सकते हैं, मिश्रण मॉडल और उसके एमएलई का सामान्य रूप अनिवार्य रूप से एक ही है, भले ही उस विशेष मूल्य $y$ को बढ़ाया जा रहा हो। (यदि एक से अधिक मूल्य बढ़ाए जाते हैं तो मॉडल का रूप थोड़ा अधिक जटिल हो जाता है।) इसका मतलब है कि एक-मुद्रास्फीति (यानी, $y=1$ लेना) गणितीय रूप से शून्य-मुद्रास्फीति (यानी, $ लेना) के समान है y=0$)।

एक व्यावहारिक परिप्रेक्ष्य से, एक-मुद्रास्फीति उन मामलों में उत्पन्न होती है जहां हमारे पास यह विश्वास करने का कारण होता है कि एक चर एक विशेष आधार वितरण द्वारा अच्छी तरह से तैयार किया गया है, सिवाय इसके कि यह आधार वितरण निम्न-प्रतिनिधित्व करता है डेटा में अपेक्षित लोगों की संख्या. शून्य-मुद्रास्फीति की तरह, यह सामान्य होगा

Ask AI
#1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 #35 #36 #37 #38 #39 #40 #41 #42 #43 #44 #45 #46 #47 #48 #49 #50 #51 #52 #53 #54 #55 #56 #57 #58 #59 #60 #61 #62 #63 #64 #65 #66 #67 #68 #69 #70