Brown, J. M. & R. C. Thomson (2016): Bayes factors unmask highly variable information content, bias, and extreme influence in phylogenomic analyses. – Systematic Biology 66(4): 517-530.
Bayes-Faktoren entlarven hochgradig variable Informationsgehalte, Schwachstellen und extreme Einflüsse bei phylogenetischen Analysen.
Mit der zunehmenden routinemäßigen Anwendung genomischer Daten bei phylogenetischen Studien zeigten sich zahlreiche Fälle bei denen alternative Ausgangsdatensätze zu völlig widersprüchlichen Schlussfolgerungen führten. Diese Sensitivität (Anfälligkeit), bedingt durch die Auswahl der für die analytischen Entscheidungen genutzten Daten, verhinderte bisher eine klare Aufspaltung der schwierigeren Knotenpunkte im Stammbaum des Lebens. Um die Ursachen für diese Mehrdeutigkeiten und die Anfälligkeit der Methoden zu verstehen, analysierten wir hier einige der phylogeneomischen Datensammlungen unter Anwendung eines alternativen Parameters, nämlich ein Maß für eine topologische Unterstützung (den Bayes-Faktor) der die Einschränkungen die andere häufig benutzte, statistische Methoden (wie Markov-chain Monte Carlo–Abschätzungen der posterioren Wahrscheinlichkeit) aufweisen sowohl im positiven wie im negativen Ausmaß anzeigt. Dabei zeigten die Bayes-Faktoren wesentliche bislang verborgene Unterschiede für alle sechs in früheren Studien benutzten „phylogenetischen Datensätze“, die dazu gesammelt worden waren, um die Stellung der Schildkröten innerhalb des Stammbaums der Amniota zu bestimmen. Diese früheren Datensätze variieren sehr deutlich in Bezug auf ihre Absicherung einer gut etablierten Verwandtschaftsbeziehung zwischen den Amnioten, insbesondere indem Anteil der Gene die ein sehr hohes Maß an Informationsgehalt liefern wie auch bei dem Anteil an Genen der gegen eine klare Verwandtschaftsbeziehung spricht. Es zeigte sich, dass alle sechs Datensätze eigentlich sehr wenige Informationen beinhalten, die eine eindeutige phylogenetische Einordnung der Schildkröten in Relation zu den anderen Amniota zulassen. Die Bayes-Faktoren zeigten zudem, dass nur eine sehr geringe Anzahl an Genen (weniger als 1 % der Gene pro Datensatz) einen extremen Einfluss haben und zu fundamentalen Verschiebungen bei signifikanten phylogenetischen Schlussfolgerungen führen können. In einem Fall konnte gezeigt werden, dass diese Gene bislang unberücksichtigte Paraloge (Gen-Duplikationen, die getrennt vorliegen) enthielten. Diese Studie zeigt deutlich, dass die Klärung schwieriger pylogenetischer Probleme sehr sensitiv auf anscheinend als gering eingestufte Analysedetails reagiert und dass die Bayes-Faktoren eine wertvolle methodische Ergänzung darstellen, um diese Fehler ausfindig zu machen und zu beheben.
Kommentar von H.-J. Bidmon
Diese Arbeit zeigt eigentlich auf, dass selbst die heute zur molekularbiologischen Klärung des Schildkrötenstammbaums benutzten Methoden fehlerbehaftet sind und zu stark voneinander abweichenden Schlussfolgerungen in der Vergangenheit geführt haben. Um zu diesem Ergebnis zu kommen, werteten die Autoren die 6 wichtigsten neueren Publikationen zur Phylogenie der Schildkröten aus. Dabei stellte sich heraus, dass die Ergebnisse dieser Studien sehr von der Auswahl der Gene abhängt, die zur Aufstellung des Stammbaums benutzt werden. Wie sich dabei zeigte sind es nicht so sehr die molekularbiologischen Analysetechniken, sondern viel gravierender wirken dabei kleine oft als unwesentlich erachtete Details auf die mathematisch, statistische Auswerteverfahren aus, so dass sich bei diesen Wahrscheinlichkeitsberechnungen Ergebnisse einstellen, die zu Fehlinterpretationen Anlass geben. Letzteres sollte uns eigentlich auch wieder daran erinnern, dass es sich dabei eben um abstrakte Einordnungen handelt, die wie so viele andere Modelle auch zwar hilfreich zur Erklärung des Beobachteten beitragen können, die aber eben nicht unbedingt oder in jedem Fall die Realität widerspiegeln müssen. Wenn es aber diese Fehler gibt sollte das uns auch daran erinnern, dass sehr ähnliche oder gar die gleichen statistischen Verfahren zur molekulargenetischen Artenbestimmung und Abgrenzung benutzt werden, wobei sich dann auch die gleichen Fehler einstellen und auswirken können. Es scheint also auch dabei immer noch Vorsicht geboten und man darf durchaus auch in Bezug auf diese Daten seine Zweifel immer noch anmerken und zur Diskussion stellen. Wenn man sich mal vor Augen führt, wie gering die Prozentzahlen an Genomabweichungen häufig sind, die dazu argumentativ benutzt werden um eine Spezies von einer anderen abzugrenzen, dann sollte deutlich werden wie problematisch man auch heute noch das ganze sehen sollte, denn die Fehler verschwinden ja nicht dadurch, dass eben viele moderne Taxonomen diesen Methoden Glauben schenken oder weil sie modern und en vouge erscheinen. Siehe dazu auch Kommentar zu Renner (2016).
Literatur
Renner, S. S. (2016): A Return to Linnaeus's Focus on Diagnosis, Not Description: The Use of DNA Characters in the Formal Naming of Species. – Systematic Biology 65(6): 1085-1095 oder Abstract-Archiv.