Ich dachte, dass das Bündeln von Daten einfach gemeint war, Daten zu kombinieren, die vorher in Kategorien aufgeteilt waren. Im Wesentlichen, ignorieren die Kategorien und die Datensammlung einen riesigen Pool von Daten. Ich denke, das ist eine Frage mehr über Terminologie als die Anwendung von Statistiken. Zum Beispiel: Ich möchte zwei Websites vergleichen, und innerhalb jeder Website habe ich zwei Jahr-Typen (gut und schlecht). Wenn ich die 2 Standorte insgesamt (dh ignorieren die Jahr-Typen) vergleichen möchte, ist es richtig zu sagen, dass Im Pooling die Daten innerhalb jeder Website Darüber hinaus, da mehrere Jahre der Daten umfassen die guten und schlechten Jahr-Typen , Ist es auch richtig zu sagen, dass ich bin die Daten unter den Jahren, um das gute Jahr und schlechte Jahr Daten in jedem Standort zu erreichen Danke für Ihre Hilfe zu erreichen Mog Ask, Ihre Beispiele sind korrekt. Das Oxford Englisch Wörterbuch definiert Pool als: 1.1 trans. Um in eine gemeinsame Aktie oder Fonds zu verteilen, die nach Vereinbarung zu kombinieren (Kapital oder Interessen) für die gemeinsame Leistung spec. Von konkurrierenden Eisenbahnunternehmen, etc. zu teilen oder zu teilen (Verkehr oder Quittungen). Ein anderes Beispiel wäre: Sie messen Blutspiegel der Substanz X bei Männern und Frauen. Sie sehen nicht statistische Unterschiede zwischen den beiden Gruppen, so dass Sie die Daten zusammen. Ignorieren des Geschlechts des experimentellen Subjekts. Ob dies statistisch korrekt ist, hängt sehr stark vom spezifischen Fall ab. Pooling kann sich auf die Kombination von Daten beziehen, kann aber auch auf die Kombination von Informationen und nicht auf die Rohdaten verweisen. Eine der häufigsten Verwendungen des Poolings besteht darin, eine Varianz abzuschätzen. Wenn wir glauben, dass 2 Populationen die gleiche Varianz haben, aber nicht notwendigerweise denselben Mittelwert haben, dann können wir die 2 Schätzungen der Varianz aus den Proben der 2 Gruppen berechnen und diese dann mit einem gewichteten Durchschnitt paaren, um eine einzige Schätzung zu erhalten Die gemeinsame Varianz. Wir berechnen nicht eine einzige Schätzung der Varianz aus den kombinierten Daten, denn wenn die Mittel nicht gleich sind, dann wird die Varianz Schätzung aufblasen. Wenn die Stichprobengrößen gleich sind, dann die einfache durchschnittlich tendenziell zu arbeiten. Im allgemeinen geben wir jedem Datenpunkt gleiches Gewicht, die Standardformel ist, jede Varianz mit den Freiheitsgraden (oder der Zahl im Nenner für als die Gruppe, n-1) zu multiplizieren, dann alle Stücke zu summieren und dann durch die Summe zu dividieren Die Freiheitsgrade (alle ni-1). Ndash Greg Schnee Jun 27 11 at 18: 30Stata: Datenanalyse und statistische Software Betrachten wir das lineare Regressionsmodell, und lassen Sie uns so tun, als hätten wir zwei Gruppen von Daten, group1 und group2. Wir hätten mehr Gruppen alles, was unten gesagt wurde, auf mehr als zwei Gruppen verallgemeinert. Wir könnten die Modelle separat abschätzen, indem wir schreiben, oder wir könnten die Daten zusammenfassen und ein einzelnes Modell schätzen, ein Weg. Der Unterschied zwischen diesen beiden Ansätzen ist, dass wir die Varianz des Restwertes in beiden Gruppen gleichermaßen einschränken die Daten. Wenn wir die Daten gesondert schätzen, erhalten wir N (0, sigma 2) für die Gruppe 1 N (0, sigma 2) für die Gruppe 2 Haben nun die Varianz von u für die Gruppe 1 mit der Varianz von u für die Gruppe 2 beschränkt. Wenn Sie dieses Experiment mit realen Daten durchführen, werden Sie folgendes beobachten: Sie erhalten die gleichen Werte für die Koeffizienten in beiden Richtungen. Sie erhalten verschiedene Standardfehler und damit unterschiedliche Teststatistiken und Konfidenzintervalle. Wenn u bekannt ist, dass sie die gleiche Varianz in den beiden Gruppen haben, sind die Standardfehler, die aus der gepoolten Regression erhalten werden, besser, da sie effizienter sind. Sind die Abweichungen wirklich verschieden, so sind die aus der gepoolten Regression erhaltenen Standardfehler falsch. 2. Abbildung (Siehe die do-Datei und das Protokoll mit den Ergebnissen in Abschnitt 7) Ich habe einen Dataset (mit zusammengesetzten Daten) auf y erstellt. X1. Und x2. Der Datensatz hat 74 Beobachtungen für Gruppe1 und weitere 71 Beobachtungen für Gruppe2. Mit diesen Daten kann ich die Regressionen separat ausführen, indem Sie eingeben, oder ich kann das gepoolte Modell, indem ich tat, dass in Stata laufen lassen, und es lassen Sie mich zusammenfassen die Ergebnisse. Wenn ich Befehl 1 eingegeben habe, erhielt ich die folgenden Ergebnisse (Standardfehler in Klammern): und wenn ich Befehl 2 lief, erhielt ich Wenn ich rannte Befehl 3, erhielt ich Das Intercept und Koeffizienten auf x1 und x2 in 3 sind die gleichen wie in 1, aber die Standardfehler sind unterschiedlich. Auch, wenn ich die entsprechenden Koeffizienten in 3 summiere, erhalte ich die gleichen Ergebnisse wie 2: Die Koeffizienten sind die gleichen, geschätzt auf jede Weise. (Die Tatsache, dass die Koeffizienten in 3 von denen in 2 etwas abweichen, liegt nur daran, dass ich nicht genug Ziffern aufgeschrieben habe.) Die Standardfehler für die Koeffizienten sind unterschiedlich. Ich schrieb auch die geschätzten Var (u), was als RMSE in Statarsquos Regression Ausgabe gemeldet wird. In Standardabweichungsbegriffen hat u an s. d. 15.528 in der Gruppe1, 6.8793 in der Gruppe2, und wenn wir diese beiden sehr unterschiedlichen Zahlen aufzwingen, dasselbe zu sein, wird die gepoolte s. d. Ist 12.096. 3. Pooling von Daten ohne Rest-Varianz zu beschränken Wir können die Daten zusammenfassen und eine Gleichung schätzen, ohne die Restvariationen der Gruppen gleich zu halten. Vorher haben wir getippt und wir starten genau die gleiche Weise. Dazu addieren wir Im obigen Fall ist die Konstante 3, die zweimal erscheint, 3, weil in jeder Gruppe drei Koeffizienten geschätzt wurden (ein Intercept, ein Koeffizient für x1 und ein Koeffizient für x2). Wenn eine andere Anzahl von Koeffizienten geschätzt würde, würde sich diese Zahl ändern. In jedem Fall wird dies genau die Standardfehler wiedergeben, die durch Abschätzen der beiden Modelle separat gemeldet werden. Der Vorteil ist, dass wir nun die Gleichheit der Koeffizienten zwischen den beiden Gleichungen testen können. Zum Beispiel können wir nun direkt von den gepoolten Regressionsergebnissen lesen, ob der Effekt von x1 in Gruppen 1 und 2 gleich ist (Antwort: ist bg2x10, weil bx1 der Effekt in Gruppe 1 ist und bx1bg2x1 der Effekt in Gruppe 2 ist Die Differenz ist bg2x1). Und, mit Test. Können wir auch andere Einschränkungen testen. Zum Beispiel, wenn Sie sich selbst beweisen wollten, dass die Ergebnisse von 4 die gleichen sind wie die Eingabe von Regress y x1 x2, wenn group2. Sie könnten Typ 4. Abbildung Mit den Daten, die ich gemacht habe, habe ich genau das getan. Als erstes schrieb ich getrennte Regressionen: und dann lief ich die Varianz-beschränkte Regression, und dann lief ich die Varianz-unbegrenzte Regression, nur um Sie daran zu erinnern, hier ist was die Befehle 1 und 2 berichtet: Hier ist, was Befehl 4 berichtet: Diese Ergebnisse sind die gleichen wie 1 und 2. (Achten Sie nicht auf die RMSE berichtet von Regress in diesem letzten Schritt der berichtete RMSE ist die Standardabweichung von keiner der beiden Gruppen, sondern ist stattdessen ein gewichteter Durchschnitt siehe die FAQ auf dieser, wenn Sie Wenn Sie die Standardfehler der jeweiligen Residuen kennen wollen, schauen Sie sich die Ausgabe der zusammengefassten Anweisungen an, die bei der Erzeugung der Gewichtungsvariablen eingegeben wurden.) Technische Anmerkung: emsp Bei der Erstellung der Gewichte tippten wir und ähnlich für Gruppe 2 ein (R (N) -1) (r (N) - 3) erscheint, weil es drei Koeffizienten pro Gruppe gibt, die geschätzt werden. Wenn unser Modell weniger oder mehr Koeffizienten hatte, würde sich diese Zahl ändern. In der Tat, die Finite-Probe-Normierung Faktor ändert sich sehr wenig. In realer Arbeit hätte ich es ignoriert und getippt, es sei denn, die Anzahl der Beobachtungen in einer der Gruppen war sehr klein. Der Normalisierungsfaktor wurde hier aufgenommen, so dass 4 die gleichen Ergebnisse wie 1 und 2 liefern würde. 5. Die (mangelnde) Wichtigkeit, die Varianz nicht einzuschränken spielt es eine Rolle, ob wir die Varianz einschränken Hier spielt es keine große Rolle. Wenn wir z. B. testen, ob die Gruppe 2 die gleiche ist wie die Gruppe 1, so erhalten wir, wenn wir stattdessen die Varianzen als dieselben eingeschränkt haben, das Modell schätzen und dann den Test wiederholen. Die gemeldete F-Statistik wäre 309,08. Wenn es mehr Gruppen gab und die Unterschiede zwischen den Gruppen groß waren, könnte dies wichtiger werden. 6. Ein anderer Weg, um die Varianz-unbeschränkten Modell Statarsquos xtgls, Panels (het) Befehl (siehe xtgls) passt genau das Modell, das wir beschrieben haben, der einzige Unterschied ist, dass es nicht alle Finite-Probe-Anpassungen, so seine Standard-Fehler sind nur ein wenig anders als die, die durch die soeben beschriebene Methode. (Es ist klar, daß xtgls, die Tafeln (het) nicht die in der technischen Anmerkung beschriebene Einstellung vornehmen, und es macht nicht, daß sich die endlichen Probenanpassungen selbst rückgängig machen, so daß Abweichungen unveränderlich sind durch die Anzahl der Beobachtungen, Anstatt N - k. Beobachtungen abzüglich der Anzahl der geschätzten Koeffizienten.) Jedenfalls, um xtgls, Panels (het) zu schätzen. Sie Pool die Daten wie immer, um das Modell zu schätzen. Das Ergebnis, das mit meinen fiktiven Daten zu tun, sind Das sind die gleichen Koeffizienten, die wir immer gesehen haben. Die Standardfehler, die von xtgls, Tafeln (het) erzeugt werden, sind hier etwa 2 kleiner als die von 4 erzeugten und im allgemeinen etwas kleiner, weil xtgls, Tafeln (het) ein asymptotisch basierter Schätzer ist. Die beiden Schätzer sind jedoch asymptotisch äquivalent und tatsächlich schnell identisch. Die einzige Vorsicht, die ich empfehlen würde, ist nicht, xtgls, Panels (het) zu verwenden, wenn die Anzahl der Freiheitsgrade (Beobachtungen abzüglich der Koeffizienten) unter 25 in jeder der Gruppen ist. Dann ist der gewichtete OLS-Ansatz 4 besser (und Sie sollten die in der obigen technischen Anmerkung beschriebenen Finite-Probe-Einstellungen vornehmen). 7. Anhang: do-file und Protokoll, das die oben angegebenen Ergebnisse liefert 7.1 do-file Die folgende do-Datei mit dem Namen uncv. do wurde verwendet. Bis zum Zeilenlesen von ldquoBEGINNING OF DEMONSTRATIONrsquo befasst sich das do-file mit dem Erstellen des künstlichen Datasets für die Demonstration: uncv. do Die do-Datei, die in 7.1 gezeigt wird, produziert die folgende Ausgabe: uncv. log
No comments:
Post a Comment