Wortmarke Statistisches Bundesamt
  Zeichen DESTATIS

Home

Kontakte

Impressum

Kolloquien:

2003

abstracts

Beiträge

2004

abstracts

Beiträge

2005

abstracts

Beiträge

2006

abstracts

Beiträge

2007

abstracts

Beiträge

2008

 

 

 

Gemeinsame Wissenschaftliche Kolloquien des Statistischen Bundesamtes und der Deutschen Statistischen Gesellschaft

Integrierte Mikrodatenfiles - Methoden zur Verknüpfung von Einzeldaten

Carsten Kuchler,

geb. 1971, M.A., seit 2003 wissenschaftlicher Mitarbeiter im Statistischen Bundesamt. Zunächst im Institut für Forschung und Entwicklung in der Bundesstatistik in einem Projekt zur Entwicklung maschineller Verfahren zur Fehleridentifikation und -korrektur beschäftigt. Seit 2005 Mitarbeiter im Forschungsdatenzentrum und dort unter anderem für das IMDAF-Projekt verantwortlich.

Markus Zwick,

geb. 1963, Diplom-Volkswirt, seit 1996 im Statistischen Bundesamt. Bis 2001 verantwortlich für Analysen und Auswertungen auf der Grundlage der Einzeldaten der verschiedenen Steuer-statistiken. In diesem Zusammenhang verschiedene mikroanalytische Projektarbeiten für das Bundesministerium der Finanzen, so z.B. im Rahmen der Steuerreform 2000 oder der Gemeindefinanzreform sowie Arbeiten im Rahmen des ersten und zweiten Armuts- und Reichtumsberichts der Bundesregierung. Seit 2002 Leiter des Forschungsdatenzentrums des Statistischen Bundesamtes.

Die breite Basis sozioökonomischer Erhebungen in der amtlichen Statistik ermöglicht Sozialwissenschaftlern und Ökonomen eine differenzierte Beschreibung und Analyse der besonderen Lebensverhältnisse gesellschaftlicher Gruppen. Jede der vorliegenden Statistiken - insbesondere der Mikrozensus (MZ), die Einkommens- und Verbrauchsstichprobe (EVS) und die Lohn- und Einkommenssteuerstatistik (EStSt) - bildet dabei einen eigenen Ausschnitt der sozioökonomischen Verhältnisse in Deutschland ab. Der Blickwinkel dieser Statistiken wird durch ihren Erhebungszweck festgelegt und richtet sich insofern auf speziell zugeschnittene Grundgesamtheiten und Variablenauswahlen. Der hohe Grad an Spezialisierung hat allerdings seinen Preis: Vergleichende Analysen können sich nur auf Variablen beziehen, die in allen einbezogenen Statistiken vorliegen, und allgemeine Analysen etwa der Einkommensverteilung sind nur innerhalb einer möglichst umfassenden Schnittmenge ihrer Grundgesamtheiten sinnvoll. Mit dem vorliegenden Bestand amtlicher Statistiken sind beide Arten von Analysen nur für wenige und zumeist stark eingeschränkte Fragestellungen durchführbar.

Mit dem Projekt Integriertes Mikrodatenfile (IMDAF) verfolgt das Statistische Bundesamt einen methodischen Ansatz, diese Datenlücke zu schließen. In einem IMDAF werden ausgewählte Variablen und Fälle der vorliegenden Statistiken in einem umfassenden Datensatz zusammengefasst. Die Integration der Datenbestände basiert auf einem Mix mathematisch-statistischer Methoden, die in einem einheitlichen theoretischen Rahmen zusammengeführt werden:

  • Matching-Verfahren: Identifikation von Datensätzen in den vorliegenden Erhebungen, die (deterministisch oder nach Wahrscheinlichkeit) einem Merkmalsträger zugeordnet werden können.
  • Imputationsverfahren: Schätzung fehlender oder fehlerhafter Werte aus den vorliegenden Informationen. Fehlende Werte liegen unter anderem auch dann vor, wenn in einem Fall die Anwendung der Matching-Verfahren zu keiner Komplettierung geführt hat. Fehlerhaft sind Beobachtungen, die nach Anwendung der Matching-Verfahren gegen fachliche Plausibilitätsprüfungen verstoßen.

Auf beiden Gebieten existieren in der Literatur eine Reihe konkurrierender Ansätze, die in Bezug auf ihre Anwendbarkeit bei den vorliegenden Datensätzen zu erproben sind. Neben statistisch motivierten Verfahren sollen bei beiden Verfahrenstypen auch so genannte Künst-liche Neuronale Netze eingesetzt werden. Statistisches Kriterium für den Einsatz all dieser Verfahren sind die Eigenschaften von Schätzfunktionen über dem integrierten Material (insb. Erwartungstreue und Varianz von Schätzfunktionen der ersten Verteilungsmomente). Diese Eigenschaften sind in der Regel nicht analytisch herleitbar, sondern in umfangreichen Monte-Carlo-Simulationen zu ermitteln.

In dem vorliegenden Beitrag werden die Ausgangsidee integrierter Datenfiles und die eingesetzten Methoden der Datenverknüpfung und -imputation im Kontext der einbezogenen Datensätze kurz vorgestellt und diskutiert. Im Fokus liegt dabei die Herleitung statistischer und anwendungsbezogener Kriterien zur Beurteilung der Qualität und des Analysepotentials eines Integrierten Mikrodatenfiles der amtlichen Statistik in Hinblick auf sozioökonomische Analysen und Modellierungen.

Download der Langfassung als PDF-Datei

© Statistisches Bundesamt Deutschland 2006