loading

Logout succeed

Logout succeed. See you again!

ebook img

Biostatistik: Eine Einfuhrung fur Biologen PDF

pages226 Pages
release year1990
file size5.3 MB
languageGerman

Preview Biostatistik: Eine Einfuhrung fur Biologen

Werner Timischl Biostatistik Eine Einführung für Biologen Springer-Verlag Wien New York Univ.-Prof. Dr. Werner Timischl Abteilung für Mathematik in den Naturwissenschaften und Mathematische Biologie Technische Universität Wien Österreich Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdruckes, der Entnahme von Abbildungen, der Funksendung, der Wiedergabe auf photomechanischem oder ähnlichem Wege und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. © 1990 by Springer-Verlag/Wien Gedruckt auf säurefreiem Papier Mit 53 Abbildungen ISBN 978-3-211-82218-0 ISBN 978-3-7091-3421-4 (eBook) DOI 10.1007/978-3-7091-3421-4 Vorwort Statistische Methoden werden im Bereich der Biowissenschaften in zunehmen dem Maße eingesetzt. Dabei mag die weite Verbreitung von einschlägigen Pro grammpaketen eine maßgebliche Rolle spielen. Gerade die Leichtigkeit der Er gebnisgewinnung mit dem Computer birgt jedoch die Gefahr in sich, statistische Methoden unsachgemäß, d.h. ohne Berücksichtigung der jeweiligen Vorausset zungen, anzuwenden. Zur richtigen Anwendung sind Grundkenntnisse der Sta tistik unerläßlich. Es ist das Ziel des Buches, in die Terminologie der Statistik einzuführen und ein statistisches Basiswissen zu vermitteln, das zu einfachen Auswertungen befähigt. Das Buch soll ein Interesse am Gedankengut der Stati stik erwecken und das Verständnis für die Anwendung der statistischen Metho den fördern. Am Beginn des Buches nehmen die beschreibenden Methoden einen breiten Raum ein. Ihnen sind die beiden ersten Kapitel gewidmet. Nach einer ausführ lichen Darstellung der Beschreibungsmöglichkeiten bei eindimensionalen Stich proben im ersten Kapitel führt das zweite Kapitel in die deskriptive Korrelations und Regressionsrechnung ein, mit der die gemeinsame Variation von zwei oder mehreren Merkmalen durch geeignete Kenngrößen bzw. Funktionsgleichungen beschrieben werden kann. Das dritte Kapitel gibt einen Einblick in die Denkwei sen der induktiven Statistik, die auf der Wahrscheinlichkeitsrechnung aufbaut. Behandelt werden wichtige diskrete und stetige Wahrscheinlichkeitsverteilungen. Weiters wird die Grundlage zum Verständnis von statistischen Schätzungen und Tests geschaffen. Schließlich werden im vierten Kapitel grundlegende Testverfah ren in Verbindung mit Zweistichprobenproblemen sowie mit der Varianz- und Regressionsanalyse behandelt. Das Buch ist aus Vorlesungen im Fachbereich Biologie an der Universität Wien hervorgegangen. Es ist geprägt von der Erfahrung, daß die Lehrinhalte von Studierenden der Biologie umso eher angenommen werden, je weniger einerseits das Inhaltliche der Statistik von mathematischen Formalismen überdeckt wird und je stärker andererseits der Anwendungsbezug ist. Vorausgesetzt werden nur Kenntnisse der Schulmathematik. Es wurde versucht, den Anwendungsbezug durch eine Fülle von durchgerechneten Beispielen herzustellen. Diese sollen zu sammen mit den am Abschluß eines jeden Kapitels beigefügten Aufgaben, zu denen es im Anhang einen ausführlichen Lösungsteil gibt, der "Biostatistik" den Charakter eines Arbeitsbuches verleihen, das sich vor allem auch zum Selbst- VI Vorwort studium eignet. Bei der Gestaltung der "Biostatistik" haben mich zahlreiche Personen un terstützt. Zu danken habe ich jenen Kolleginnen und Kollegen, die mir ihr Da tenmaterial für die Aufgaben und Beispiele zur Verfügung stellten. Meinem Bru der Dr. Wolfgang Timischl und den Herren Doz. Dr. Helmut Länger sowie Doz. Dr. Uwe Humpesch danke ich für das Mitlesen der Korrekturen. Die Abbildun gen wurden mit großer Sorgfalt von Herrn Mag. Wilhelm Nowak hergestellt. Schließlich danke ich auch Frau Dr. Irene Stursa vom Springer-Verlag in Wien für die intensive Betreuung und die gute Zusammenarbeit. Wien, im April 1990 Werner Timischl Inhal tsverzeichnis 1 Eindimensionale Datenbeschreibung 1.1 Deskriptive Methoden: Aufgabenstellung und Grundbegriffe 1 1.1.1 Ein- und mehrdimensionale Datenbeschreibung 1 1.1.2 Stichprobe und Grundgesamtheit 5 1.1.3 Merkmalstypen 8 1.2 Nominale Merkmale 11 1.3 Ordinale Merkmale . . 14 1.4 Metrische Merkmale 17 1.4.1 Häufigkeitsverteilungen ohne Klassenbildung 17 1.4.2 Häufigkeitsverteilungen mit Klassenbildung 24 1.4.3 Weitere Kenngrößen und Ergänzungen . 30 1.5 Aufgaben .. . . . . . . . . . . . . . . . . . . . . . 36 2 Zusammenhangsanalysen: Deskriptive Korrelations- und Regressionsrechnung 2.1 Einfache Korrelation . . . . . . . . . . . . 40 2.1.1 Vierfeldertafeln und ~-Koeffizient 40 2.1.2 Der Kontingenz-Index von Cramer 44 2.1.3 Korrelation zwischen Rangreihen . 46 2.1.4 Korrelation zwischen metrischen Merkmalen. 50 2.2 Einfache lineare Regression . . . . . . . . . . . . . . 57 2.2.1 Problemstellung ............... . 57 2.2.2 Berechnung der linearen Regressionsfunktion 63 2.2.3 Beurteilung der Anpassungsgüte ..... . 66 2.2.4 Regression von X auf Y . . . . . . . . . . . 69 2.2.5 Regressionsgerade durch einen festen Punkt 72 2.2.6 Linearisierende Transformationen . . . . . . 73 2.3 Lineare Regressionsanalysen mit mehreren Einfiußgrößen . 76 2.3.1 Mehrfache lineare Regression 76 2.3.2 Zweifache lineare Regression 77 2.3.3 Multiple Korrelation .. 81 2.3.4 Partielle Korrelation . . 83 2.3.5 Polynomiale Regression 87 VIII Inhaltsverzeichnis 2.4 Aufgaben .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 89 3 Induktive Statistik: Grundlegende Begriffe und Denkweisen 3.1 Rechnen mit Wahrscheinlichkeiten . . . . 96 3.1.1 Der Begriff der Wahrscheinlichkeit 96 3.1.2 Bedingte Wahrscheinlichkeit. 102 3.2 Diskrete Zufallsvariablen . . . . . . . . . . 105 3.2.1 Binomialverteilung......... 105 3.2.2 Mittelwert und Varianz einer diskreten Zufallsvariablen 109 3.2.3 Parameterschätzung mit der Momentenmethode 113 3.2.4 Weitere diskrt!te Verteilungen 115 3.3 Stetige Zufallsvariablen .................. 122 3.3.1 Normalverteilung . . . . . . . . . . . . . . . . . . 122 3.3.2 Prüfen von Hypothesen: Der Binomialtest bei großen Stich- proben. . . . . . . . . . . . . . . . . . . . . . . . . 133 3.3.3 Die Chiquadrat-Verteilung. . . . . . . . . . . . . . . . . . 140 3.3.4 Verteilung des standardisierten Stichprobenmittels .... 147 3.3.5 Vergleich der Varianzen von zwei normalverteilten Zufalls- variablen 152 3.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 4 Ausgewählte statistische Prüfverfahren 4.1 Zweistichprobenprobleme ............ . 159 4.1.1 Vergleich von unabhängigen Stichproben. 159 4.1.2 Vergleich von verbundenen Stichproben 167 4.1.3 Unabhängigkeit und Korrelation 170 4.2 Varianz- und Regressionsanalysen . 174 4.2.1 Einfache Varianzanalyse ... 174 4.2.2 Einfache lineare Regression . 182 4.2.3 Zweifache lineare Regression 185 4.3 Aufgaben .......... . 186 Anhang A: Statistische Tafeln 189 Anhang B: Lösungen der Aufgaben 196 Literaturverzeichnis 212 Sachverzeichnis . . . 215 Everything should be made as simple as possible, but not simpler. (A. Einstein) Kapitell Eindimensionale Datenbeschreibung 1.1 Deskriptive Methoden: AufgabensteIlung und Grundbegriffe Im Mittelpunkt der Arbeit des angewandten Statistikers stehen Daten. Daten ge winnt man durch Beobachten, Befragen oder Messen, unter "natürlichen" oder künstlich geschaffenen Versuchsbedingungen im Rahmen eines Experimentes. An die Datengewinnung schließt als nächster Schritt die Datenbeschreibung in Form von Tabellen, Graphiken, Kenngrößen oder Funktionen an mit dem Ziel, im Datenmaterial verborgene Informationen zu erkennen und übersichtlich dar zustellen. Diesem Zweck dienen die im ersten und zweiten Kapitel behandelten Verfahren der deskriptiven Statistik. 1.1.1 Ein- und mehrdimensionale Datenbeschreibung Die Bearbeitung eines Datenmaterials beginnt wohl damit, daß man es in ge ordneter Weise niederschreibt. Häufig liegt die folgende Datenstruktur vor: Für p ausgewählte Merkmale Xh X2, ... ,Xp sind an n Untersuchungseinhei ten Ut. U2, ••• ,Un die einzelnen Merkmalswerte ermittelt worden. Den an der i-ten Untersuchungseinheit festgestellten Wert des Merkmals X bezeich j nen wir mit der doppelt indizierten Größe Xi;. Durch jeden Merkmalswert Xi; wird eine der möglichen Merkmalsausprägungen von X; realisiert. Beispiels weise liefert die Bestimmung des Merkmals "Blutgruppe" (ABO-System) an n Untersuchungseinheiten (Personen) n Merkmalswerte, von denen jeder einzelne eine der vier Ausprägungen A, B, AB oder 0 darstellt. Bei den Untersuchungs einheiten kann es sich um Individuen (z.B. Versuchspersonen, Tiere, Pflanzen) oder auch um Objekte (Proben, Untersuchungsflächen usw.) handeln. Wurde nur ein Merkmal pro Untersuchungseinheit erfaßt, spricht man von einem ein dimensionalen oder univariaten Datenmaterial. In diesem Fall bezeichnet man das Merkmal einfach mit einem Großbuchstaben (z.B. X) und den an der 2 1 Eindimensionale Datenbeschreibung 55 55 69 53 50 63 73 62 52 53 79 55 54 61 71 86 74 55 53 69 55 40 51 44 72 52 62 63 65 67 61 72 48 62 51 57 66 72 59 54 Tabelle 1.1. Gesamtzahl der bis zum Aussterben abgelegten Puparien für 40 mit jeweils 15 geschlüpften Weibchen gebildete Kohorten von Glossina p. palpalis (Beispiel 1.1) i-ten Untersuchungseinheit beobachteten Merkmalswert mit dem entsprechen den einfach indizierten Kleinbuchstaben (z.B. Xi). Das von einem Merkmal X vorliegende (univariate) Datenmaterial wird auch eine Beobachtungsreihe ge nannt und meist durch zeilenweises Anschreiben der Merkmalswerte in der Form Xli X2, ••• ,Xn dargestellt. Beispiel 1.1. Eine Voraussetzung für den erfolgreichen Einsatz der Steri len Insektentechnik zur Bekämpfung der Tsetsefliegen ist die Bereitstellung einer ausreichend großen Anzahl von sterilen Männchen für eine kontinu ierliche Freilassung. Im Zusammenhang damit wurden in einem Labora torium der Internationalen Atomenergiebehörde in Wien (Abteilung für Radioaktive Techniken in Ernährung und Landwirtschaft) Versuche mit ei ner neuen Fütterungstechnik (Membranfütterung mit gefriergetrocknetem Rinderblut) zur Massenzüchtung von Tsetsefliegen angestellt. Bei einem derartigen Versuch wurden nach der neuen Methode 40 "Kontrollgruppen" gefüttert, worunter Kohorten zu verstehen sind, die sich aus jeweils 15 der Kolonie "aufs Geratewohl" entnommenen Weibchen desselben Schlupfda turns zusammensetzten. Nach Begattung der Weibchen (etwa drei Tage nach dem Schlüpfen) wurde für jede Kontrollgruppe die innerhalb von 100 Tagen (praktisch bis zum Aussterben der Kohorten) abgelegte Anzahl X der Pup arien gezählt, die ein Maß für die "Produktivität" der Kohor ten darstellt. Die erhaltenen Produktivitätswerte sind in Tabelle 1.1 ange schrieben. Die Untersuchungseinheiten sind in diesem Beispiel die n = 40 aus der Laboratoriumskolonie ausgewählten Kohorten, an denen jeweils nur ein Merkmal, nämlich die Anzahl X der insgesamt abgelegten Pu parien, erhoben wurde. Bei X handelt es sich offensichtlich um ein soge nanntes Zählmerkmal, und folglich kommen als Ausprägungen von X nur nicht-negative ganze Zahlen (bis zu einer gewissen oberen Grenze) in Frage. Es ist schwer, aus den in Beispiel 1.1 aufgelisteten Zahlen ohne vorherige Aufbereitung Eigenschaften des betrachteten Merkmals zu erkennen. Die Auf bereitung besteht in der Regel darin, daß man die voneinander verschiedenen Merkmalswerte (nach aufsteigender Größe geordnet) anschreibt und hinzufügt, wie oft jeder einzelne im Datenmaterial vorkommt. Auf diese Weise erhält man 1.1 Deskriptive Methoden: Aufgabenstellung und Grundbegriffe 3 eine Häufigkeitstabelle, aus der man z.B. sofort den kleinsten bzw. größten Merkmalswert ablesen kann oder den Modalwert, d.h. jenen Wert, der am öftesten auftritt. Die genannten Werte sind Beispiele für aus den Daten ermit telte Kenngrößen, durch die das Datenmaterial - allerdings recht grob - be schrieben wird. Eine andere viel verwendete Kenngröße ist das arithmetische Mittel, das man erhält, indem man die Summe aller Merkmalswerte durch ihre Anzahl dividiert. Durch Kenngrößen werden offensichtlich nur ganz bestimmte Aspekte des Datenmaterials erfaßt. Wenn zwei Merkmalswerte pro Untersuchungseinheit vorliegen, nennt man das Datenmaterial zweidimensional oder auch bivariat. Darüber hinaus, also bei mehr als zwei Merkmalswerten pro Untersuchungseinheit, spricht man von einem mehrdimensionalen oder multivariaten Datenmaterial. Bei bivaria tem - und erst recht bei multivariatem - Datenmaterial ist es zweckmäßig, die n X p Merkmalswerte in Tabellenform darzustellen, etwa so, daß die Zei len den Untersuchungseinheiten und die Spalten den Merkmalen entsprechen. Das entstehende rechteckige Schema der in n Zeilen und p Spalten angeordne ten Merkmalswerte nennt man kurz eine n X p-Datenmatrix. Jede Zeile der Datenmatrix enthält der Reihe nach die Werte der Merkmale, die an der zur betrachteten Zeile gehörenden Untersuchungseinheit registriert wurden. Kon zentriert man sich dagegen auf ein bestimmtes Merkmal, so kann man aus der zu diesem Merkmal gehörenden Spalte der Datenmatrix der Reihe nach die von den verschiedenen Untersuchungseinheiten stammenden Ausprägungen des interessierenden Merkmals ablesen. Einen Sonderfall stellen die einspaltigen Da tenmatrizen dar, die man aus Platzgrunden aber meist zeilenweise anschreibt. (Vgl. Tabelle 1.1 zu Beispiel 1.1.) Beispiel 1.2. In Tabelle 1.2 sind die an 40 Exemplaren des Brillenschöt chens (Biscutella laevigata) ermittelten Werte für 8 ausgewählte Merkmale aufgelistet. Es bedeuten Xl den Entwicklungszustand (1 = blühend, 2 = = = blühend und fruchtend, 3 fruchtend - grüne Schötchen, 4 fruchtend - gelbe Schötchen), X die Sproßhöhe in mm, X die Länge des größten 2 3 Grundblattes in mm, X" die Anzahl der Zähne des größten Grundblattes (an einem Blattrand), X die Anzahl der Stengelblätter am Hauptsproß, 5 X die Länge des untersten Stengelblattes in mm, X die Spaltöffnungs 6 7 länge in /Lm und Xs die Chromosomenanzahl. Die Aufbereitung eines multivariaten Datenmaterials beginnt man meist mit einer univariaten Bearbeitung, indem man zunächst jedes Merkmal (jede Spalte der Datenmatrix) für sich alleine betrachtet und beschreibt (z.B. durch Kenn größen wie den kleinsten bzw. größten Merkmalswert, das arithmetische Mit tel usw.). Gegenüber univariaten Materialzusammenstellungen ermöglichen bi variate bzw. multivariate grundsätzlich neue Einsichten, und zwar durch die Beschreibung des Zusammenhanges zwischen den erfaßten Merkmalen. Als

See more

The list of books you might like