Konzept f\"ur Bildanalysen in Hochdurchsatz-Systemen am Beispiel des Zebrab\"arblings
R\"udiger Alshut

TL;DR
This paper introduces a comprehensive approach combining optimized experiment design and specialized image analysis modules for high-throughput zebrafish imaging, improving data efficiency and analysis accuracy.
Contribution
It presents a novel experiment layout optimization method and a new set of image analysis modules tailored for zebrafish, enhancing high-throughput image analysis workflows.
Findings
Reduced data volume and redundancy
Improved classification accuracy
Enhanced detection of new signals
Abstract
With image-based high-throughput experiments, new challenges arise in both, the design of experiments and the automated analysis. To be able to handle the massive number of single experiments and the corresponding amount of data, a comprehensive concept for the design of experiments and a new evaluation method is needed. This work proposes a new method for an optimized experiment layout that enables the determination of parameters, adapted for the needs of automated image analysis. Furthermore, a catalogue of new image analysis modules, especially developed for zebrafish analysis, is presented. The combination of both parts offers the user, usually a biologist, an approach for high-throughput zebrafish image analysis, which enables the extraction of new signals and optimizes the design of experiments. The result is a reduction of data amount, redundant information and workload as well…
| Parameter | Formel | Beschreibung |
|---|---|---|
| Variationskoeffizient | Parameter zur Quantifizierung der Messgenauigkeit relativ zum Mittelwert aller Messungen eines Versuchs in Prozent. Akzeptable Werte sind <15%. | |
| Signal-Rausch-Verhältnis | Parameter zur Quantifizierung der Stärke des Nutzsignals | |
| Signal-Hintergrund-Verhältnis | Parameter, welcher in der Praxis mit Hilfe der Kontrollen ermittelt wird. Erwartungswert der Messwerte eines Versuchs (Nutzsignal) im Verhältnis zum Erwartungswert der Messwerte der Kontrollen (Hintergrund). Akzeptable Werte sind >2. | |
| Signalfenster | Parameter zur Quantifizierung der Signifikanz zwischen dem Maximal- und Minimalwert der Kontrollen. Akzeptable Werte sind >2. | |
| -Faktor | Alternative Repräsentation des Signalfensters. Der Wert wird meist sowohl für die Kontrollen als auch für den Versuch selbst ermittelt. Akzeptable Werte sind >0.5. | |
| Minimum-Signifikanz-Verhältnis | Parameter zur Quantifizierung des minimalen Verhältnisses zwischen zwei Messungen, welches statistisch relevant ist (95% Konfidenz). |
| Jahr | Art des Screens | Anz. Chem. | Anz. Fische | Methode | Dim. der Bildakquise | Ref. |
|---|---|---|---|---|---|---|
| 2012 | Mutant-Identifizierung | >1000 | Bildauswertung und -akquise automatische Station: Tecan Infinite M1000 | 2D + Fluoreszenz | [174] | |
| 2012 | Medikamenten-Untersuchung | 3 | 3000 | Automatisches Mikroskop, Hellfeld + Fluoreszenz, automatisches Sortierverfahren, manuelle Bildverarbeitung (ImageJ) | 1D+2D + Zoom + Fluoreszenz | [35] |
| 2011 | Mutant-Identifizierung | 5 | 1000 | Automatisches Mikroskop, Hellfeld, Skriptbasierte Bildverarbeitung | 2D | [93] |
| 2011 | Transgenetische Reporter | 3 | Automatisches Mikroskop, Hellfeld + Fluoreszenz, Skriptbasierte Bildverarbeitung (Labview) | 2D + Zoom + Fluoreszenz | [130] | |
| 2010 | Verhaltens-Untersuchung | 14 000 | 70 000 | Automatisches Mikroskop, Kamera, Metamorph-Control Software | 2D + Zeit | [80] |
| 2010 | Verhaltens-Untersuchung | 5 648 | Megapixel Objektiv, Infrarot Kamera, Viewpoint Tracking Software | 2D + Zeit | [143] | |
| 2010 | Medikamenten-Untersuchung | 34 | 1 700 | Automatisches Mikroskop, Hellfeld + Fluoreszenz, Skriptbasierte Bildverarbeitung (Labview) | 2,5D + Fluoreszenz | [41] |
| 2010 | Entwicklung einer Hochdurchsatz-Methode | 450 | speziell angefertigte Hochdurchsatz-Lösung, mehrere Detektoren, keine automatisierte Bildauswertung | 1D + 2D + Fluoreszenz | [126] | |
| 2009 | Verhaltens-Untersuchung | 3 | Infrarot Kamera, Noldus Tracking Software | 2D + Zeit | [67] | |
| 2009 | Mutant-Identifizierung | 115 | Manuelles Mikroskop, Skriptbasierte Bildverarbeitung | 2D | [30] | |
| 2009 | Identifikation von Genkombinationen | 17 730 | Automatisiertes Mikroskop, Hellfeld + Fluoreszenz, Skriptbasierte Bildverarbeitung (MATLAB-Software) | 2,5D + Fluoreszenz | [49] |
| Methode | Rechenaufwand [s] | Rechenaufwand für typische Sequenz [s] |
|---|---|---|
| Kreisdetektion | ||
| Korrelation |
| Analyse | Präsentationstechnik |
|---|---|
| Bildverarbeitungsanalyse | Merkmalsbilder bzw. Sequenzen von Merkmalsbildern. Überlagerung von Rohdaten mit Merkmalsbildern |
| Diskriminanzfunktion | Scatterplot über Lerndaten mit Einblendung der Trennflächen |
| Ergebnisinterpretation | Sequenzen und Bilder des Bildstroms evtl. mit Einblendung der trennstärksten Merkmale |
| Falschfarbenbilder | Darstellung eines Intensitäts- oder Grauwertbilds durch Zuordnung einer Farbe meist als Überlagerung eines anderen Bildes (vgl. Abb. 7) |
| Gesamtübersicht | Reportdatei mit einer Auswahl der hier genannten Präsentationstechniken bezugnehmend auf Plan- und Störfaktoren |
| Heatmaps | Darstellung der Werte einer Matrix in Form eines Bildes mittels einer Farbkodierung (vgl. Abb. 21) |
| Klassifikationsergebnisse | Klassenspezifische Histogramme, Ergebnistabellen, Konfusionsmatrix, Überlagerung von Bildern und Sequenzen des Bildstroms mit den Klassifikationsergebnissen, Scatterplot mit Klassenzuweisung und Diskriminanzfunktion |
| Merkmalsselektion | Sortierte Merkmalslisten mit Merkmalsrelevanzen |
| Merkmalsverteilung | Boxplot, Histogramm eines Merkmals |
| Merkmalsverteilung (paarweise) | Scatterplot, Falschfarbenbilder, Heatmaps |
| Rohdatenanalyse | Sequenzen und Bilder der Rohdaten sowie deren Grauwertverteilung, z.B. in Form von Histogrammen |
| Zeitreihen | 2D-Plot, Heatmap, evtl. mit Einblendung von Klassifikationsergebnissen wie z.B. Bewegungsphasen und -ereignissen |
| Programm | Beschreibung | Author | Lizenz |
| CombineZ | Auf die Kombination mehrerer Fokusaufnahmen spezialisierte, batchfähige Software | Alan Hadley | GPL |
| Hough transform for circles222www.mathworks.de/matlabcentral/fileexchange/26978-hough-transform-for-circles | Implementierung des Hough-Algorithmus zur Kreisdetektion | David Young | BSD |
| ImageJ | Bildbearbeitungs- und Bildverarbeitungsprogramm | Wayne Rasband | Public Domain |
| IrfanView | Bildbetrachter mit umfangreichen Funktionen | Irfan Ŝkiljan | Freeware |
| LabVIEW add-on: Vision/Image Processing | Bildverarbeitungserweiterung für LabVIEW | National Instruments | Proprietär |
| MATLAB Image Processing Toolbox | Umfangreiche Sammlung von Bildverarbeitungs- und Bildanalysefunktionen | Mathworks | Proprietär |
| PeakFinder333www.mathworks.de/matlabcentral/fileexchange/25500-peakfinder | Implementierung zur Minima- und Maximadetektion innerhalb verrauschter Daten | Nate Yoder | BSD |
| Sync-Toy | Tool zur Synchronisierung von Dateien und Ordnern | Microsoft | Freeware |
| Template Matching using Correlation Coefficients444www.mathworks.de/matlabcentral/fileexchange/28590-template-matching-using-correlation-coefficients | Implementierung des Template-Matching Verfahrens | Yue Wu | BSD |
| TortoiseSVN | Windows-Client für den Versionsverwaltungs-Dienst Subversion-SVN | The TortoiseSVN team | GPL |
| Klasse | Augen | Dottersack | Rücken | Schwanz | Anzahl | |
| Auge 1 | Auge 2 | |||||
| seitlich | ||||||
| von oben | ||||||
| von unten | ||||||
| hinten | ||||||
| undefiniert | ||||||
| Summe | ||||||
| Toxin | Einheit | Dosis | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| As2O3 | [mM] | ||||||||||
| CdCl | [mg/l] | ||||||||||
| Ethanol | [%] | ||||||||||
| Methanol | [%] | ||||||||||
| PbCl2 | [mg/l] |
| Parameter | Wert | Bemerkung |
| 1 | Wiederholungen innerhalb der Platte (nicht Replika!) | |
| 96 | Standard-Mikrotiterplatte mit 96 Näpfchen | |
| 3 | Anzahl der Fokusebenen | |
| 0.2 | Zeit zur Aufnahme eines Bildes [s] | |
| 1.2 | Zeit für Bewegung an den Anfang der Mikrotiterplatte [s] | |
| 4 | Zeit für Bewegung von Näpfchen zu Näpfchen [s] | |
| 6.2 | Zeit zum Vereinzeln einer Larve [s] | |
| 3.1 | Zeit zum Exponieren einer Larve [s] | |
| 1.8 | Mittels Formel (1) ermittelte Gesamtzeit [s] für eine Larve | |
| 172 | Mittels Formel (1) ermittelte Gesamtzeit [s] für eine 96er-Platte | |
| 11 | Gesamter Zeitaufwand pro Larve [s] | |
| 18 | Gesamter Zeitaufwand pro 96er-Platte [min] |
| Koagulation | Konzentration |
Toxin
Position Mikroskop Wiederholung Aufnahmedatum Aufnahmezeit |
-Mikrotiterplatte | |||
| Toxine | Larven | Konzentrationen | Schätzung koaguliert | Schätzung entwickelt | EC50 |
|---|---|---|---|---|---|
| As2O3 | 120 | K1-K5 | 49 | 71 | 1.1 |
| CdCl | 240 | K1-K10 | 31 | 209 | - |
| Ethanol | 120 | K1-K5 | 27 | 93 | 2.5 |
| Methanol | 120 | K1-K5 | 74 | 46 | 2.5 |
| PbCl | 240 | K1-K8 | 47 | 193 | - |
| Kontrolle | 168 | - | - | - | - |
| Toxin | K1 | K2 | K3 | K4 | K5 | K6 | K7 | K8 | K9 | K10 | Kontrolle |
|---|---|---|---|---|---|---|---|---|---|---|---|
| AS2O3-1 | 0 | 0 | 3 | 9 | 11 | 1 | |||||
| AS2O3-2 | 3 | 0 | 4 | 9 | 10 | 0 | |||||
| CdCl-1 | 1 | 1 | 5 | 2 | 0 | 0 | 2 | 4 | 2 | 1 | 0 |
| CdCl-2 | 1 | 0 | 0 | 2 | 1 | 0 | 0 | 3 | 4 | 2 | 1 |
| Ethanol-1 | 1 | 0 | 0 | 6 | 7 | 0 | |||||
| Ethanol-2 | 0 | 0 | 0 | 4 | 9 | 0 | |||||
| Methanol-1 | 0 | 6 | 10 | 11 | 12 | 0 | |||||
| Methanol-2 | 0 | 2 | 10 | 12 | 11 | 0 | |||||
| PbCl-1 | 3 | 3 | 4 | 0 | 6 | 1 | 5 | 4 | 0 | ||
| PbCl-2 | 5 | 6 | 1 | 1 | 3 | 0 | 2 | 4 | 0 |
| Toxin | Einheit | Dosis | präsente Koagulation | präsente Spontanbewegung | präsenter Herzschlag | ||||
|---|---|---|---|---|---|---|---|---|---|
| Methanol | [%] | 1.67 | 2.27 | 2.5 | 2.75 | 3.75 | 9 | 63 | 29 |
| Ethanol | [%] | 1.33 | 1.82 | 2 | 2.2 | 3 | 16 | 31 | 8 |
| Valproat I | [mg/l] | 186.7 | 254.5 | 280 | 308 | 420 | 6 | 21 | 10 |
| Valproat II | [mg/l] | 186.7 | 254.5 | 280 | 308 | 420 | 17 | 25 | 18 |
| Parameter | Wert | Bemerkung |
| 30 | Wiederholungen | |
| 96 | Standard Mikrotiterplatte mit 96 Näpfchen | |
| 5 | Anzahl der Frames | |
| 0.2 | Zeit zur Aufnahme eines Bildes [s] | |
| 1.2 | Zeit für Bewegung an den Anfang der Mikrotiterplatte [s] | |
| 4 | Zeit für Bewegung von Näpfchen zu Näpfchen [s] | |
| 6.2 | Zeit zum Vereinzeln einer Larve [s] (manuell) | |
| 3.1 | Zeit zum Exponieren einer Larve [s] (manuell) | |
| 67 | Mittels Gleichung (1) ermittelte Gesamtzeit [s] für eine Larve | |
| 107 | Mittels Gleichung (1) ermittelte Gesamtzeit [min] für eine 96er-Platte | |
| 76 | Gesamter Zeitaufwand pro Larve [s] | |
| 123 | Gesamter Zeitaufwand pro 96er-Platte [min] |
| Koagulation Herzschlag Spontanbew. | Konzentration |
Toxin
Position Mikroskop Wiederholung Aufnahmedatum Aufnahmezeit |
er-Mikrotiterplatte | ||||
|---|---|---|---|---|---|---|---|
| Merkmal | Güte-MANOVA | Güte- ANOVA |
|---|---|---|
| MEAN ZR | —– | 0.879 |
| MAX ZR | 0.895 | 0.789 |
| MAX ZR | 0.894 | 0.801 |
| MAX ZR | 0.893 | 0.859 |
| MEAN ZR | 0.887 | 0.834 |
| MEAN ZR | 0.887 | 0.829 |
| MAX ZR | 0.886 | 0.771 |
| MEDIAN ZR | 0.885 | 0.819 |
| MEDIAN ZR | 0.885 | 0.813 |
| MAX ZR | 0.883 | 0.721 |
| MAX ZR | 0.882 | 0.730 |
| MEAN ZR | 0.882 | 0.820 |
| MEDIAN ZR | 0.881 | 0.801 |
| MEAN ZR | 0.881 | 0.878 |
| MEAN ZR | 0.880 | 0.769 |
| MEDIAN ZR | 0.880 | 0.746 |
| MEDIAN ZR | 0.879 | 0.873 |
| MEDIAN ZR | 0.879 | 0.874 |
| MAX ZR | 0.879 | 0.777 |
| MEDIAN ZR | 0.879 | 0.749 |
| MEAN ZR | 0.879 | 0.772 |
| Coiling Swimming | Chemikalie | Position | -Mikrotiterplatte | |||
| Kriterium [#] | Beschreibung |
|---|---|
| 1 | Frames, die 25% heller sind als der zuvor bestimmte Mittelwert korrekter Frames, werden verworfen. |
| 2 | Teilweise oder vollständig außerhalb der Bildmatrix detektierte Eier werden verworfen. |
| 3 | Detektierte Eier mit einer mittleren Helligkeit von über 200 werden verworfen. |
| 4 | Detektierte Eier mit einer mittleren Helligkeit unter 50 werden verworfen. |
| 5 | Eier mit einem Durchmesser größer oder kleiner als die Suchradien (hier zwischen 20 und 30 Pixel) werden verworfen. |
| 6 | Außerhalb des Suchraums für das Tracking (hier 4 Pixel in X- und Y-Richtung) detektierte Eier werden verworfen. |
| 7 | Eier, deren Mittelpunkte näher als 90% des zuvor ermittelten typischen Eidurchmessers sind, werden verworfen. |
| 8 | Bewegungen außerhalb des detektierten Kreises der detektierten Eier werden verworfen. |
| Formelzeichen | Bedeutung |
| Schwellenwert im Bewegungsindex | |
| Bildanzahl | |
| Bildstrom eines Einzelversuchs | |
| Bildstrom eines Einzelversuchs nach der Bildvorverarbeitung | |
| Quantil bei der Merkmalsberechnung | |
| Messgenauigkeitsparameter | |
| Hill-Koeffizient; Absolutwert der Steigung der Dosis-Wirkungs-Kurve | |
| Wendestelle der Dosis-Wirkungskurve | |
| Aufnahmehäufigkeit des Bildstroms | |
| Abtastfrequenz des Signals | |
| Histogramm eines Bildes | |
| Filtermaske | |
| Bildmatrix | |
| Indexmenge ausgewählter Merkmale | |
| Durch Filterung adaptierte Indexmenge | |
| Durch einen Wrapper adaptierte Indexmenge | |
| Indexmenge zur zeitlichen Unterscheidung im Bildstrom | |
| Laufindex für Modalitäten eines segmentierten Bildstroms | |
| Anzahl an Modalitäten eines Bildstroms | |
| Laufindex für Modalitäten eines segmentierten Bildstroms | |
| Anzahl an Modalitäten eines segmentierten Bildstroms | |
| Differenzbild | |
| Pixelwert eines mit Rauschen überlagerten Differenzbildes | |
| Geglättetes Differenzbild | |
| Dynamischer Schwellenwert bei der Merkmalsberechnung | |
| Einzelne Bildmatrix innerhalb eines Bildstroms | |
| Laufindex der Frames einer Bildsequenz | |
| Laufindex der Frames einer Bildsequenz im segmentierten Bildstrom | |
| Laufindex im Histogramm | |
| Oberer Schwellenwert zur Bildnormalisierung | |
| Pixel einer Bildmatrix | |
| Pixelwerte nach Bildnormalisierung | |
| Binäres Kantenbild | |
| Maximaler Intensitätswert eines Bildes | |
| Laufindex Präparationsschritte | |
| Indikator bei der Klassifikation des Bewegungsindex | |
| Mittels eines Quantils ermittelter Schwellenwert über Pixelwerte | |
| Mittels eines Quantils ermittelter Schwellenwert über Pixelwerte | |
| Schwellenwert in einem Bild | |
| Laufindex für Spitzen im Bewegungsindex | |
| Laufindex Planfaktoren | |
| Laufindex Störfaktoren | |
| Unterer Schwellenwert zur Bildnormalisierung | |
| Laufindex für Wiederholungen einer Abtastung | |
| Laufindex für Wiederholungen einer Abtastung im segmentierten Bildstrom | |
| Laufindex für Spalten in einem Bild | |
| Anzahl Spalten in einem Bild | |
| Laufindex für Spalten im segmentierten Bildstrom | |
| Laufindex für Zeilen in einem Bild | |
| Anzahl Zeilen in einem Bild | |
| Laufindex für Zeilen im segmentierten Bildstrom | |
| Laufindex für Schichten in einem dreidimensionalen Bild | |
| Anzahl Schichten in einem dreidimensionalen Bild | |
| Laufindex für Schichten im dreidimensionalen und segmentierten Bildstrom | |
| Randpunkte des Bewegungsindex | |
| Laufvariable | |
| Anzahl an Mikroskopen | |
| Anzahl an PCs bzw. Projekten | |
| Anzahl Abtastzeitpunkte | |
| Laufindex Abtastzeitpunkte | |
| Intervall um eine Spitze im Bewegungsindex | |
| Anzahl der Zeitreihen | |
| Anzahl der Merkmale | |
| Anzahl ausgewählter Merkmale | |
| Modalität des Bildstroms | |
| Anzahl aggregierter Merkmale | |
| Längste Halbachse einer umschließenden Ellipse | |
| Kürzeste Halbachse einer umschließenden Ellipse | |
| Minimum-Signifikanz-Verhältnis | |
| Anzahl an Klassen des -ten Planfaktors | |
| Anzahl an Klassen des -ten Störfaktors | |
| Modalität des Nutzsignals | |
| Laufindex Versuchseinheiten | |
| Anzahl Einzelversuche in einer Hochdurchsatz-Untersuchung | |
| Raum der natürlichen Zahlen | |
| Anzahl an Positiv-Kontrollen | |
| Anzahl an Negativ-Kontrollen | |
| Anzahl an Bildsequenzen eines Bildstroms | |
| Anzahl an Wiederholungsdurchläufen innerhalb einer Platte | |
| Anzahl an Präparationsschritten zur Realisierung eines Versuchs | |
| Anzahl an präparierten Versuchseinheiten | |
| Anzahl an Näpfchen (Wells) | |
| Anzahl an Fokusebenen | |
| Optimierungskriterium zur Normalisierung | |
| Vektor aller Versuchsparameter | |
| Sensor- oder Pixelwerte | |
| Durch Filterung adaptierte Versuchsparameter | |
| Durch einen Wrapper adaptierte Versuchsparameter | |
| Versuchsparameter des Bildstroms | |
| Versuchsparameter der Bildstrom-Vorverarbeitung | |
| Versuchsparameter der Klassifikation mit | |
| Versuchsparameter der Planfaktoren | |
| Versuchsparameter der Störfaktoren | |
| Versuchsparameter des Nutzsignals | |
| Parameter zur Zentrierung bei Normalisierung | |
| Raum der reellen Zahlen | |
| Reale Werte des Einzelversuchs | |
| Raum welcher den realen Einzelversuch beschreibt | |
| Anzahl an Frames einer Bildsequenz | |
| Anzahl an Frames einer Bildsequenz im segmentierten Bildstrom | |
| Anzahl an Wiederholungen einer Abtastung | |
| Anzahl an Wiederholungen einer Abtastung im segmentierten Bildstrom | |
| Signal-Fenster | |
| Signal-Hintergrund-Verhältnis | |
| Signal-Rausch-Verhältnis | |
| Abbildung bei der Bildakquise | |
| Abbildung zur Bildstrom-Vorverarbeitung | |
| Abbildung bei der Segmentierung | |
| Anzahl Planfaktoren | |
| Gesamt-Abbildung zur Schätzung der Klassenzugehörigkeit des realen Versuchs bezüglich der Planfaktoren | |
| Anzahl Störfaktoren | |
| Gesamt-Abbildung zur Schätzung der Klassenzugehörigkeit des realen Versuchs bezüglich der Störfaktoren | |
| Abbildung zur Bestimmung von Nutzsignalzeitreihen | |
| Abbildung zur Bestimmung von Nutzsignalmerkmalen | |
| Abbildung zur Merkmalsauswahl | |
| Abbildung zur Merkmalsaggregation | |
| Abbildung zur Entscheidungsfindung bezüglich der Planfaktoren | |
| Abbildung zur Entscheidungsfindung bezüglich der Störfaktoren | |
| Erforderliche Zeit für die Akquise einer Standard-Platte mit 96 Näpfchen | |
| Anzahl an Frames des Bildstroms | |
| Alter der Zebrabärblingslarven in einer Hochdurchsatz-Untersuchung | |
| Erforderliche Zeit für eine Bewegung des automatischen Mikroskops | |
| Erforderliche Zeit für einen Präparationsschritt einer Probe in einer Hochdurchsatz-Untersuchung | |
| Erforderliche Zeit für die Akquise einer Standard-Platte mit 96 Näpfchen | |
| Aufnahmedauer bei der Bildakquise | |
| Indizes, die den Auftrittsort des Nutzsignals innerhalb des Bildstroms beschreiben mit | |
| Indizes, die den Auftrittsort des Nutzsignals innerhalb des realen Versuchs beschreiben mit | |
| Parameter der Verteilung (z.B. Standardverteilung) zur Normalisierung | |
| Variationskoeffizient | |
| Matrix der aggregierten Merkmale | |
| Merkmal (allgemein) | |
| Matrix der Merkmale ( Zeilen, Spalten) | |
| Hilfsvariable bei der Merkmalsberechnung | |
| Konstante bei der Merkmalsberechnung | |
| Abszissenachse eines Bildes | |
| Planfaktor | |
| Geschätzte Klasse eines Planfaktors | |
| Geschätzte Klassenzugehörigkeit der Planfaktoren | |
| Matrix der Planfaktoren | |
| Erwarteter Effekt nach Regression | |
| Ordinatenachse eines Bildes | |
| Zeitreihe von Merkmalswerten | |
| Störfaktor | |
| Geschätzte Klassenzugehörigkeit der Störfaktoren | |
| Matrix der Störfaktoren | |
| Parameter zur Quantifizierung der Signifikanz einer Hochdurchsatz-Untersuchung | |
| Parameter zur Quantifizierung der Signifikanz eines Einzelversuchs einer Hochdurchsatz-Untersuchung | |
| Konzentrationen einer Untersuchung | |
| Ersatzgröße weiterer Faktoren einer Hochdurchsatz-Untersuchung | |
| Parameter zur Wichtung zwischen Plan- und Störfaktoren bei der Optimierung | |
| Bildzeile | |
| Maximaler Erwartungswert einer Versuchsreihe | |
| Minimaler Erwartungswert einer Versuchsreihe | |
| Erfolgsrate bei Schätzung der Planfaktoren | |
| Klassifikationsgüte bei Schätzung der Planfaktoren | |
| Optimale Klassifikationsgüte für | |
| Erfolgsrate bei Schätzung der Störfaktoren | |
| Klassifikationsgüte bei Schätzung der Störfaktoren | |
| Optimale Klassifikationsgüte für | |
| Standardabweichung der Messwerte eines Versuchs | |
| Standardabweichung der Differenz von Versuchen | |
| Versuch mit größter/kleinster Standardabweichung der Messwerte | |
| Farbtiefe eines Bildes | |
| Segmentierter Bildstrom |
Peer Reviews
No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.
Videos
No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.
Taxonomy
TopicsZebrafish Biomedical Research Applications · Cell Image Analysis Techniques · Single-cell and spatial transcriptomics
**Konzept für Bildanalysen in Hochdurchsatz-Systemen am Beispiel des Zebrabärblings
Zur Erlangung des akademischen Grades
**Doktor der Ingenieurwissenschaften
** der Fakultät für Maschinenbau
Karlsruher Institut für Technologie (KIT)
**
genehmigte
**Dissertation
**von
Dipl. Ing. Rüdiger Alshut
geboren am 14. Dezember 1980 in Mannheim
Tag der mündlichen Prüfung: 12.Juli.2016
Hauptreferent: Prof. Dr.-Ing. habil. G. Bretthauer
Korreferent: Prof. Dr.-Ing. Ralf Mikut
Korreferent: Prof. Dr. Uwe Strähle
Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung –
Weitergabe unter gleichen Bedingungen 3.0 Deutschland Lizenz
(CC BY-SA 3.0 DE): http://creativecommons.org/licenses/by-sa/3.0/de/
**Danksagung
**
Die vorliegende Dissertation entstand in der Zeit von November 2008 bis Mai 2013 während meiner Tätigkeit am Institut für Angewandte Informatik des Karlsruher Instituts für Technologie. Im Rückblick auf die Entstehungszeit dieser Arbeit habe ich reichlich Grund zur Dankbarkeit.
Herr Prof. Georg Bretthauer hat mir durch die Anstellung diese Arbeit ermöglicht und mich durch Diskussionen und wertvolle Hinweise beim Verfassen unterstützt. Frau Professor Jivka Ovtcharova hat das Korreferat übernommen. Herr Prof. Uwe Strähle ermöglichte durch seine Ideen und Zielsetzungen das Entstehen der Methoden und deren Anwendung für die Biologie. In besonderem Maße bin ich Herrn Prof. Ralf Mikut dankbar. In seiner Arbeitsgruppe und unter seiner Leitung wurden die hier vorgestellten Ergebnisse erarbeitet. Er war für mich sowohl ein großartiger Mentor als auch Ansprechpartner auf professioneller aber auch persönlicher Ebene. Keines unserer Treffen verließ ich nicht ein wenig klüger und motivierter als zuvor.
Herrn Dr. Markus Reischl danke ich für die wertvolle fachliche Unterstützung und die unterhaltsamen Diskussionen, die einen erheblichen Teil zum Gelingen dieser Arbeit beigetragen haben. Sein Wissen und seine Fachkenntnis haben mich manches Mal verblüfft und mir oft weitergeholfen. Auch seinen Humor und seinen sportlichen Ehrgeiz möchte ich nicht missen. Herr Dr. Patrick Waibel hat mit mir, in jener Zeit, durch das gemeinsame Büro mehr Zeit verbracht als jeder andere Mensch und ist seit den ersten Tagen am Institut sowohl in fachlicher als auch in persönlicher Hinsicht wichtig für mich gewesen. Für die weiterhin anhaltende Freundschaft bin ich sehr dankbar. Herrn Dr. Jörg Matthes danke ich für die fachliche und freundschaftliche Unterstützung und die vielen Diskussionen während meiner Anstellung.
Auch die Kollegen und Studenten am Institut für angewandte Informatik waren stets eine große Hilfe bei diversen Problemstellungen. Namentlich erwähnen möchte ich Frau Dr. Jasmin Lampert, Frau Daniela Sanchez, Herrn Prof. Lutz Gröll, Herrn Dr. Alexander Pfriem, Herrn Prof. Christian Pylatiuk.
Für die finanzielle Unterstützung durch das Auslandsstipendium möchte ich dem Karlsruhe House of Young Scientists (KHYS) danken, welches die Zusammenarbeit mit den Kollegen der Harvard Medical School ermöglicht hat. Die kurze aber intensive Kollaboration war außerordentlich gewinnbringend. Von den Kollaborationspartnern gilt mein Dank besonders PhD Randall Peterson, in dessen Lab die Forschung statt fand, PhD Anjali Nath und PhD Xiang Li, die mich sofort kollegial in das Umfeld eingeführt haben und vor allem PhD David Kokel, der mich nicht nur in die Arbeiten integriert hat, sondern mir gleich vom ersten Tag an ein zu Hause in der Fremde geben hat.
Schlussendlich gilt ein großer Dank meiner Familie: Meiner Frau Christine für das fleißige Korrekturlesen, meinen Eltern sowie meiner Schwester Marion für ihre Unterstützung in Worten und Taten.
Inhaltsverzeichnis
-
2 Grundlagen zur Bildakquise & -verarbeitung für den Hochdurchsatz
-
1 Neues Konzept zur Versuchsauswertung von Hochdurchsatz-Untersuchungen am Zebrabärbling
-
3 Anforderungen an bildbasierte Hochdurchsatz-Untersuchungen
-
2 Modulkatalog für die Auswertung und Präsentation von Hochdurchsatz-Untersuchungen am Zebrabärbling
-
2 Neues Verfahren zur Bildfilterung und Normalisierung für inhomogene Datensätze
-
1 Neue Methode zur Trennung von Einzelobjekt und Hintergrund
-
2 Neue Methode zur Trennung von mehreren Objekten und Hintergrund
Kapitel 0 Einleitung
1 Bedeutung der Arbeit
Bildbasierte Hochdurchsatz-Systeme ermöglichen das systematische massenweise Testen und Einordnen der Aktivität chemischer Substanzen in diversen Bereichen der Biologie, Toxikologie, Pharmakologie und Genetik. Machbarkeitsstudien zellbasierter Screens mit niedrigen Stückzahlen entwickelten sich in den letzten Jahren schnell zu robusten und umfassenden Industriestandards mit teilweise immensen Stückzahlen von Einzelversuchen sowie einer Größenordnung bis in die Hunderttausende. Allerdings sind Schlussfolgerungen (z.B. Auswirkungen auf den Menschen und die Umwelt) aus den bisher fast ausschließlich zellbasierten Untersuchungen schwierig, Erkenntnisse müssen meist durch langwierige Tierversuche überprüft und schließlich durch diese oft widerlegt werden [189]. Wird das Potenzial des Hochdurchsatzes durch die Ausweitung der Analyse auf einen vollständigen Modellorganismus, wie z.B. die Eier des Zebrabärblings, ausgeweitet, so sind folgende ökonomische sowie ethische Ziele erreichbar[10, 183, 188]:
- •
eine höhere Effektivität durch geringere Fehlprognosen,
- •
die Reduktion von Tierversuchen zur Bestätigung von Ergebnissen,
- •
die Erhöhung des Durchsatzes bereits bestehender manueller Untersuchungen an Gesamtorganismen wie dem Zebrabärbling sowie
- •
die Einsparung von Kosten, Personal und Zeit für die Versuchsdurchführung.
Eine geeignete Hochdurchsatz-Untersuchung erfordert eine auf die speziellen Anforderungen abgestimmte Versuchsauslegung, die schnelle und zuverlässige Erfassung und Analyse der Bildinhalte sowie eine klare zusammenfassende Darstellung der Ergebnisse. Herausfordernd ist, dass sich der auszuwertende Effekt von Versuch zu Versuch stark unterscheidet und durch die hohe Versuchsanzahl die Qualität der aufgezeichneten Daten stark schwankt. Daher beschränken sich bisherige Lösungen auf die (Teil)Automatisierung von einfachen, informationsarmen oder die manuelle Auswertung von komplizierteren, informationsreichen Untersuchungen. In der vorliegenden Arbeit werden ein neues Konzept sowie neue Verfahren zur Gewinnung von Informationen aus Hochdurchsatz-Untersuchungen an Modellorganismen entwickelt und am Beispiel des Zebrabärblings erprobt, was für eine schnelle automatisierte Erforschung biologischer Zusammenhänge und der Analyse von Einflüssen innerhalb von Organismen sowie zur Entdeckung neuer Wirkstoffe eine Schlüsseltechnologie darstellt.
2 Darstellung des Entwicklungsstandes
1 Biologische Grundlagen
Übersicht Hochdurchsatz-Untersuchung
Als Hochdurchsatz-Untersuchungen werden Batch-Tests oder Siebtests bezeichnet, welchen in der Biologie gewöhnlich genetische, pharmakologische oder toxikologische Fragestellungen zu Grunde liegen und die eine große Anzahl an Einzeluntersuchungen beinhalten. Hochdurchsatz-Untersuchungen sind besonders in der Pharmakologie weit verbreitet und ermöglichen das schnelle Durchführen von Millionen von Tests. Mittels solcher Tests lassen sich beispielsweise rasch Antikörper, (bio)aktive Substanzen oder Gene, die bestimmte biologische Wirkungspfade beeinflussen, identifizieren. Sie ermöglichen, in kurzer Zeit eine große Anzahl von Proben in weiten Teilen automatisiert zu testen. In der Toxikologie wird aus den Ergebnissen der Tests zum einen das Gefahrenpotenzial von Substanzen bestimmt, zum anderen das Verständnis biochemischer Prozesse verbessert. In der Pharmakologie dient die Identifikation bioaktiver Substanzen zudem als Ausgangspunkt zur Erforschung neuer Wirkstoffe, die potenziell als Basis neuartiger Medikamente in Frage kommen, oder wird zur Erforschung biochemischer Prozesse im Organismus herangezogen [18, 64, 127].
Die Abb. 1 zeigt den derzeit üblichen Ablauf der Versuchsauslegung für Hochdurchsatz-Untersuchungen. Auf die Parameter der Blöcke „Biologie“, „Bildakquise“ und „Analyse & Interpretation“ wird hierbei Einfluss genommen. Es wird die Art der Bildakquise, die Auswertemethode, Versuchsparameter sowie die Anzahl der durchzuführenden Einzeluntersuchungen manuell festgelegt. Die Auslegung der Untersuchungen wird in der Forschung gemäß der Erfahrung des Experimentators durchgeführt und basiert nicht auf systematischen Entscheidungskriterien.
Unabhängig von Fragestellung, Ziel und Umfang der Hochdurchsatz-Untersuchung wird ein biologisches Signal benötigt, welches sich bei der Datenerfassung beobachten und quantifizieren lässt. Unter dem Begriff Biosignal wird meist eine elektrische Spannung als Ergebnis biologischer Aktivitäten verstanden [153] und als Nutzsignal in den folgenden Schritten weiter verarbeitet. Nutzsignale sind oft mittels Elektroden gewonnene (Änderungen von) Spannungen wie etwa die Elektrokardiografie (EKG), die Elektroenzephalografie (EEG), die Elektromyografie (EMG) oder das Elektroretinogramm (ERG). Generalisiert betrachtet umfasst der Begriff jedoch auch alle beobachtbaren und quantifizierbaren nicht-elektrischen Signale aus z.B. der Mechanik, Akustik, Chemie oder Optik. Für die in der vorliegenden Arbeit betrachteten bildbasierenden Verfahren sind vor allem optische Signale von Interesse, welche durch einen biologischen Effekt in der untersuchten Probe hervorgerufen werden. Die Effekte müssen mit geeigneten Mitteln reproduzierbar erzeugt und sichtbar gemacht werden, beispielsweise durch geeignete Präparation oder Stimulation. Im Anschluss werden die Signale quantifiziert (siehe hierzu Abschnitt 2), um Rückschlüsse ziehen zu können.
Bei Hochdurchsatz-Untersuchungen hat sich die Anwendung sog. Mikrotiterplatten etabliert [104]. Hierbei handelt es sich um kostengünstige Kunststoffplatten, in welche gitterartig angeordnete Vertiefungen (sog. Wells) eingebracht sind. Typische Platten besitzen 96, oder Vielfache von 96 (z.B. 384, 1536, 3456) solcher Vertiefungen und sind kommerziell erhältlich. Je nach durchzuführendem Versuch gibt es unterschiedliche Ausführungen bzgl. der Farbe, beispielsweise mit Seitenwänden aus schwarzem Plastik, oder bzgl. der Form, z.B. mit runden oder flachen Böden der Näpfchen. Die Mikroskopie ist bei der Mehrheit der Untersuchungen invers, dabei wird das Bild „von unten“ in Durchlicht-Aufnahmetechnik akquiriert. Die Näpfchen werden in den meisten Fällen mit einer Trägerflüssigkeit, beispielsweise einer wässrigen Lösung von Dimethylsulfoxid (DMSO) und, je nach Versuch, einer oder mehreren zu untersuchenden Chemikalien gefüllt. Während die Trägerflüssigkeit in allen Versuchen gleich bleibt, wird die gelöste Chemikalie variiert. Üblicherweise werden zu Kontrollzwecken einige Näpfchen pro Platte mit lediglich der Trägerflüssigkeit (sog. Negativkontrollen) gefüllt und alle Versuche in mehrfacher Ausführung durchgeführt (sog. Replika). Zusätzlich werden Näpfchen mit einem Reaktanten exponiert, dessen Wirkung auf die Organismen bekannt ist (sog. Positivkontrollen). Die genannten Maßnahmen dienen bei der Auswertung zur Überprüfung, ob während des Versuchs Ungereimtheiten auftreten und das Testverfahren auch tatsächlich funktioniert. Bei Auffälligkeiten muss die entsprechende Platte oder sogar die gesamte Versuchsreihe ausgeschlossen oder wiederholt werden [64]. Die genauen Anweisungen, welche zur Versuchsdurchführung notwendig sind, werden als „Versuchsprotokoll“ bezeichnet.
Mikrotiterplatten werden nicht nur bei der Versuchsdurchführung angewandt, sondern auch zur Lagerung und Sortierung von chemischen Komponenten verwendet. In einem solchen Fall lagert in jedem Näpfchen eine Substanz, von der eine detaillierte Dokumentation existiert. Derart befüllte Platten sind als Bibliotheken auch kommerziell erhältlich und werden als „Stock-plates“ (engl.) bezeichnet (vgl. Abb. 2). Die Stock-Plates werden oft gefroren gelagert und nicht direkt in der Hochdurchsatz-Untersuchung verwendet, sondern eine definierte Menge der zu untersuchenden Substanzen wird entnommen und der Hochdurchsatz-Untersuchung zugeführt. Meist sind Wirkstoff-Familien auf einer solchen Stock-Plate zusammengefasst, und daher wird die gesamte Stock-Plate auf diese Weise dupliziert und untersucht. In einem typischen Versuch wird in das Gemisch aus Chemikalie und Trägerflüssigkeit eine biologische Einheit gegeben.
Bei einer biologischen Einheit handelt es sich z.B. um eine Zelle, Zellkultur oder einen biologischen Modellorganismus wie etwa einen tierischen Embryo. Nach einer Inkubationszeit, in welcher der Wirkstoff mit der biologischen Einheit interagieren kann, werden Messungen mittels diverser Detektoren (vgl. Abschnitt 4) automatisiert oder manuell von den Einheiten durchgeführt [151]. In bildbasierenden Hochdurchsatz-Untersuchungen erfolgt die Generierung der Messwerte meist durch visuelle Auswertung der Versuche [32]. Die Messwerte werden auf Auffälligkeiten, sog. hits (engl. für Treffer), untersucht. Die Möglichkeit, einzelne Zellen z.B. durch fluoreszierende Proteine zu markieren, hat die Robustheit und den Durchsatz der Versuche, zumindest bei zellbasierten Versuchen, in den vergangenen Jahren stark gesteigert [179]. Diese einfach gehaltenen Untersuchungen, bei denen lediglich die Anwesenheit oder Menge des fluoreszierenden Proteins ausgewertet wird, sind selbst ohne fortgeschrittene Bildverarbeitung und Segmentierungstechnik möglich. Kombiniert mit Automatisierungstechnik lassen sich bei derartigen Untersuchungen sehr hohe Zahlen an Einzelversuchen pro Tag erreichen. Der Begriff Hochdurchsatz ist indes nicht genau definiert, wird aber weithin bei einem Durchsatz zwischen 10 000 und 100 000 Proben pro Tag verwendet [180].
Manuell durchgeführte Experimente sind meist der Ausgangspunkt, aus dem ein Hochdurchsatz-Experiment abgeleitet wird. Die Versuchsprotokolle der manuellen Untersuchungen im Labor müssen angepasst werden, damit sie sich für den Hochdurchsatz eignen [66]. Wichtige Bedingungen sind:
- •
Gute Reproduzierbarkeit und Stabilität des Nutzsignals zwischen einzelnen Näpfchen und Platten. Dies gilt sowohl bezüglich des Reaktanten, der biologischen Einheit sowie der verwendeten Geräte (z.B. bei Verwendung mehrerer Mikroskope etc.)
- •
Hohe Zuverlässigkeit der verwendeten Positiv- und Negativkontrollen
- •
Ausreichende Sensibilität des Nutzsignals zur Identifikation von Substanzen mit schwachem Effekt auf die biologische Einheit
- •
Wirtschaftlichkeit der Hochdurchsatz-Untersuchung (standardmäßig gemessen in Kosten pro Näpfchen).
Aus den Abweichungen und Schwankungen zwischen den Platten und Kontrollen lassen sich Kontrollparameter berechnen, welche Auskunft über die Robustheit des Versuchs geben. Zur Validierung, inwieweit sich ein Protokoll für die Hochdurchsatz-Untersuchung eignet, haben sich verschiedene Parameter etabliert (vgl. Tabelle 1).
Das Signalfenster und der -Faktor dienen zur Abschätzung zwischen dem Minimum und Maximum der Messungen und der Präzision der Werte innerhalb einer Platte und plattenübergreifend. Das Signalfenster bestimmt einen Parameter, welcher die Signifikanz zwischen dem maximalen und minimalen Messwert einer Versuchsreihe quantifiziert. Dieser ist jedoch nicht in gleichem Maße verlässlich wie der -Faktor [69]. Der -Faktor ermöglicht durch die einheitenlose Skala (von 0 bis 1) den Vergleich verschiedener Versuche und Versuchsdurchläufe miteinander. Hierbei werden auch Kontroll-Näpfchen () und Versuch-Näpfchen () miteinander verglichen. Niedrige Werte innerhalb der Kontrollen deuten beispielsweise auf eine Kontaminierung der Näpfchen oder ein anderes Problem in der Versuchsdurchführung hin. Die Sensitivität der Untersuchung ist ein Messwert zur Bestimmung der Genauigkeit und Reproduzierbarkeit, welche sich mittels des Minimum-Signifikanz-Verhältnisses () quantifizieren lässt[9, 42].
Zebrabärbling als Modellorganismus für den Hochdurchsatz
Als biologische Einheiten kommen im Hochdurchsatz meist Modellorganismen zum Einsatz. Modellorganismen sind z.B. ausgewählte Pflanzen, Tiere, Bakterien oder Pilze, die mit einfachen Methoden gezüchtet bzw. untersucht werden können und von besonderer Bedeutung für die biologische/biomedizinische Forschung sind. Sie zeichnen sich in der Regel durch eine kostengünstige sowie unkomplizierte Haltung bzw. Nachzucht aus und sind in vielfältiger Hinsicht sehr gut dokumentiert. Darüber hinaus gehören einige dieser Arten zu den ersten Spezies, deren komplettes Genom entschlüsselt werden konnte. Die Wahl des Modellorganismus hängt in der Regel von der biologischen Fragestellung ab. An Einzellern lassen sich beispielsweise gut zellbiologische Prozesse untersuchen. Mehrzellige Lebewesen hingegen werden vor allem für entwicklungsbiologische oder toxikologische Untersuchungen benötigt. Umfassend behandelt werden Modellorganismen in [117].
Bei der Forschung an Modellorganismen wird versucht, allgemein gültige und auf andere Organismen, insbesondere dem des Menschen, übertragbare Erkenntnisse zu erhalten. Ein Grundproblem der etablierten Modellorganismen in der Toxikologie und Entwicklungsbiologie, wie z.B. der Fruchtfliege (Drosophila melanogster), dem Fadenwurm (Caenorhabditis elegans) oder dem Krallenfrosch (Xenopus laevis), ist die relativ große entwicklungsgeschichtliche Distanz zum Menschen [65]. Säugetiere, wie z.B. die Maus oder die Ratte, besitzen jedoch im Vergleich zu Insekten und Amphibien eine niedrigere Anzahl an Nachkommen und eine ungleich längere Generationszeit. Zudem entwickeln sich die Nachkommen innerhalb des Mutterleibes, wodurch toxikologische Untersuchungen bzw. Manipulationen am Embryo technisch aufwändig sind und sich nur schwer observieren lassen. Säugetierorganismen sind dem menschlichen Organismus am ähnlichsten, so dass an ihnen erzielte Forschungsergebnisse oft aussagekräftige Informationen über Verhältnisse beim Menschen liefern. Jedoch ist eine Hochdurchsatz-Untersuchung aufgrund der oben geschilderten Nachteile und aufgrund der für die Analyse benötigten hohen Anzahl an Messdaten und damit an Individuen in der Praxis häufig nicht wirtschaftlich, technisch schwierig durchführbar und ethisch bedenklich.
Der Zebrabärbling ist ein auf dem indischen Subkontinent beheimateter, ausgewachsen ca. 3 bis 5 cm großer Karpfenfisch (Cyprinidae) und hat in den wissenschaftlichen Laboratorien der Entwicklungsbiologen eine erstaunliche Karriere gemacht [43]. Auch in der Industrie gewinnt der Zebrabärbling an Bedeutung. Eine ständig wachsende Zahl von Laboren versucht, anhand des Fisches biologische Vorgänge zu verstehen, die Ursachen menschlicher Erkrankungen aufzuklären und neue Medikamente zu entwickeln.
Der Zebrabärbling verbindet die Vorteile einer kurzen Generationszeit mit einer hohen Anzahl von Nachkommen und technisch leicht zugänglichen Larven, die sich außerhalb des Mutterleibes entwickeln. Als Vertreter der Wirbeltiere (Vertebraten) besitzt er alle Organsysteme, die auch im Menschen vorkommen wie z.B. Auge, Hirn, Herz, Drüsen etc. Sein Immunsystem lässt sich im Gegensatz zu dem von Insekten gut mit dem des Menschen vergleichen. Des Weiteren wird davon ausgegangen, dass die überwiegende Zahl aller menschlichen Gene im Fisch nicht nur vorkommt, sondern auch sehr ähnliche oder sogar die gleichen Funktionen besitzen. Zudem sind die Zellen sowie die äußere Fruchthülle um die Larven (das sog. Chorion) transparent, wodurch eine einfache Beobachtung mit dem Lichtmikroskop möglich ist. Die hohe Transparenz der Zellen ermöglicht eine genaue Beobachtung der sich bildenden Organe oder der Herzfrequenz und der Blutströmung am lebenden Embryo. Während von den Zebrabärblingslarven scharfe Detailaufnahmen die Identifizierung einzelner Zellen ermöglichen, stehen von anderen, lebenden, vertebralen Embryonen oder auch von lebenden menschlichen Embryonen nur weitaus schlechtere Bilder, wie z.B. unscharfe und kontrastarme Ultraschallaufnahmen, zur Verfügung. Laut der EU Direktive 2010/63/EU fallen Versuche an frühen Tierembryonen nicht unter das Tierschutzgesetz und müssen somit nicht als Tierversuche angemeldet werden, was den administrativen Aufwand für Versuche mit hohen Stückzahlen verringert. Der Zeitpunkt, ab dem die Embryonen unter das Tierschutzgesetz fallen, ist der Zeitpunkt, ab dem diese eigenständig auf Futtersuche gehen. In [167] wird der Zeitpunkt von 120 Stunden nach der Befruchtung [hpf] empfohlen. Weiterführende Literatur zum Zebrabärbling als Modellorganismus in der Forschung findet sich z.B. in [86, 107, 161, 169].
Die Zebrabärblingslarve hat für Hochdurchsatz-Untersuchungen großes Potenzial. Bereits 1996 wird von [46] auf zahlreiche Literatur zum Potenzial des Zebrabärblings hingewiesen, die Vorteile des Fisches in vielen Forschungsgebieten ausführlich diskutiert und dieser als der Nachfolger der Fruchtfliege bezeichnet. An der Fruchtfliege als Modellorganismus gelangen bahnbrechende Erfolge bei der Identifizierung essentieller Gene in der Embryonalentwicklung. Diese Arbeit von Christiane Nüsslein-Volhard wurde 1995 mit dem Nobelpreis für Medizin und Physiologie ausgezeichnet [120]. So förderte die Europäische Kommission seit Anfang 2004 bis Ende 2009 ein Gemeinschaftsprojekt von 15 europäischen Forschungseinrichtungen zur Forschung am Zebrabärbling mit dem Namen ZF-MODELS - Zebrafish Models for Human Development and Disease unter Leitung des Tübinger Max-Planck-Instituts für Entwicklungsbiologie mit 12 Millionen Euro. Ziel des Projektes war es, am Zebrabärbling die Entwicklung von Wirbeltieren sowie menschliche Erbkrankheiten zu erforschen. Während des Projektes wurden die Abläufe und Zusammenhänge im Zebrabärbling als Vertreter der Wirbeltiere untersucht. Die Ergebnisse waren derart vielversprechend, dass seit Juli 2010 das Folgeprojekt Zebrafish Regulomics for Human Health (ZF-HEALTH) für einen Zeitraum von fünfeinhalb Jahren mit 11,4 Millionen Euro gefördert wird. Das ausgesprochene Ziel des neuen Programmes ist u.a. die Durchführung von Hochdurchsatz-Phänotypisierung mittels Verhaltens-Untersuchungen am Zebrabärbling in 3D- und 4D-Bildaufnahmen.
Verglichen mit anderen Wirbeltieren verläuft die Entwicklung der Larve des Zebrabärblings sehr schnell und fast jeder Entwicklungszeitpunkt lässt sich verfolgen und in Bildern aufzeichnen. Die Eizelle, die sich oberhalb der Dotterkugel befindet, beginnt sich bereits Minuten nach dem Ablaichen und der Befruchtung zu teilen (Abb. 3a). Der beschriebene Vorgang wurde bereits mittels Bildverarbeitung geprüft und verfolgt von [74, 109, 108]. Diese Art von Auswertungen sind jedoch bisher aufgrund der großen Datenmengen nicht für den Hochdurchsatz geeignet.
Aus den ersten Zellen bildet sich innerhalb von vier Stunden durch Zellteilungen eine Gruppe aus einigen tausend Zellen (Abb. 3b), welche in den folgenden sechs Stunden den Dotter umwachsen. Zehn Stunden nach der Befruchtung zeichnet sich allmählich der Kopf der Larve ab (Abb. 3c-e) und nach 18 Stunden sind am Kopf die ovalen Vorläufer der Augen sowie im Rumpf die ersten Muskeln erkennbar. Kurze Zeit später beginnt der Schwanz sich zu strecken, die meisten Organe sind angelegt, das Herz fängt an zu schlagen und die nur knapp 24 Stunden alte Larve bewegt sich bereits im Chorion. Während des dritten Tages nach der Befruchtung ist die Larve fertig entwickelt. Sie schlüpft und schwimmt die ersten kurzen Strecken (Abb. 3f-i). Nach fünf Tagen schließlich hat sie ihren Dottervorrat aufgebraucht und sucht selbstständig nach Futter. Trotz der rasanten Entwicklung dauert es dann immerhin noch drei Monate, bis ein Zebrabärbling geschlechtsreif wird. Eine genaue Beschreibung des Entwicklungsprozesses findet sich in [76]. Die beschriebenen Merkmale des Zebrabärblings lassen sich lichtmikroskopisch leicht observieren. Alle Aufnahmen in Abb. 3 wurden mit einem herkömmlichen Lichtmikroskop aufgezeichnet. Es existieren bereits automatisierte Systeme zum Erkennen diverser Phänotypen oder Endpunkte [160, 49, 173].
Zum Verständnis eines weiteren Vorteils des Zebrabärblings, dem Einsatz sog. Transgene, wird im Folgenden kurz auf das Grün Fluoreszierende Protein eingegangen. 1961 beschrieb und extrahierte erstmals Osamu Shimomura das Grün Fluoreszierende Protein (GFP) einer Tiefseequalle [156, 157], welches bei Anregung mit blauem oder ultraviolettem Licht grün fluoresziert. Von unschätzbarem Wert ist das GFP, da es sich als Marker für die Genexpression nutzen lässt. Eine mit Hilfe des Proteins markierte Zelle erfüllt die gleiche Funktion wie eine nicht markierte Zelle, mit dem Unterschied, dass die markierten Zellen nach Anregung mit einer passenden Wellenlänge fluoreszieren d.h., leuchten. Ein Organismus, in den ein solcher Marker eingebracht wurde, wird als Transgen bezeichnet. Auch im Zebrabärbling lassen sich auf die beschriebene Art Transgene generieren. Unmittelbar mit der Entstehung einer derart markierten Zelle im Zebrabärbling lassen sich räumliche und zeitliche Verteilung und Bewegungen der Zelle studieren. Für die Entdeckung und Extraktion des GFP wurde im Jahr 2008 der Nobelpreis für Chemie an Osamu Shimomura, Martin Chalfie und Roger Tsien verliehen. Es existieren neben dem GFP bereits Varianten in anderen Farben (z.B. CFP (cyan) oder YFP (yellow)), so dass sich auch mehrere Zelltypen des Zebrabärblings gleichzeitig und unabhängig beobachten lassen[134, 172]. Die Möglichkeit, die genannte Technik des Markierens von Zellen im Zebrabärbling anzuwenden [92], eröffnet für den Modellorganismus alle Möglichkeiten, die die moderne Fluoreszenzmikroskopie bietet [159]. Hervorzuheben sind hier Aufnahmetechniken, die es ermöglichen, Zellbewegungen über die Zeit und/oder in 3D zu akquirieren. Die erzielbare Auflösung reicht von makroskopischen Bildern einfachster Aufbauten [17] über die bereits als Standard geltende Konfokal-Mikroskopie [129], die spezialisierte Hochdurchsatz-Mikroskopie [90] bis hin zur Nanoskopie, welche sich der Fluoreszenz bedient, um die physikalische Beugungsgrenze zu überwinden [8, 56]. Die einfachste Variante ist das Akquirieren des Fluoreszenzkanals mittels eines herkömmlichen Lichtmikroskops, welches mit einem Fluoreszenzfilter ausgestattet ist. Beim Standard für die 3D-Bildakquise, der Konfokal-Mikroskopie, wird nur ein sehr kleiner Teil des Präparats zu jedem Zeitpunkt zur Fluoreszenz angeregt. Dies ermöglicht das Abrastern der Proben und so das Rekonstruieren von 3D-Modellen im Rechner. Das Abrastern benötigt jedoch Zeit und somit ist das Akquirieren von zeitlichen Veränderungen schwierig bzw. die zeitliche Auflösung oftmals zu begrenzt. Eine weitere wichtige Mikroskopie-Technik, die sich der Fluoreszenz bedient und beim Zebrabärbling Anwendung findet, ist die Single Plane Illumination Microscopy (SPIM)[63]. Hierbei ist das Prinzip ähnlich wie bei der Konfokal-Mikroskopie. Allerdings wird nicht lediglich ein Punkt zur Fluoreszenz angeregt, sondern ein scharf definiertes Lichtvolumen. Durch das hohe Aspektverhältnis des Volumens wird auch von einem Lichtblatt gesprochen. Diese Variante ermöglicht eine wesentlich höhere Akquisegeschwindigkeit bei einem guten Signal-Rausch-Verhältnis.
Relevante Forschungsgebiete für eine bildbasierte Hochdurchsatz-Untersuchung im Zebrabärbling
Der Vorteil, den eine Hochdurchsatz-Untersuchung im gesamten Organismus gegenüber der Zelle hat, ist, dass Verknüpfungen und Gene in den Organismen oft redundant vorkommen oder erst durch das Zusammenspiel aller biochemischen Prozesse in der Wirkkette der Einfluss von Chemikalien aussagekräftig erforscht werden kann. Der Zebrabärbling vereint die beschriebenen Möglichkeiten der Bildakquise mit den oben dargelegten Vorteilen in Haltung, gentechnischer Relevanz, kurzen Generationszyklen und klaren Mikroskopieaufnahmen. Somit erscheint das Tier als optimal geeignet für neue Hochdurchsatz-Untersuchungen mit bisher nicht erreichter Aussagekraft [10, 91, 97, 162, 183, 188]. Des Weiteren existieren bereits Firmen, welche spezielle Hochdurchsatz-Untersuchungen auf Auftragsbasis zur Entwicklung von Medikamenten am Zebrabärbling durchführen. Eine Liste von kommerziellen Anbietern von Hochdurchsatz-Untersuchungen findet sich in [19]. Bezüglich der Einsatzgebiete für Hochdurchsatz-Untersuchungen lassen sich drei weitläufige und biologisch relevante Bereiche unterscheiden:
Entwicklungsbiologische oder genetische Forschung:
Hier wird das Verständnis über Funktionen und Eigenschaften von Genen und Mutationen erforscht. Die entwicklungsbiologische Forschung oder Ontogenese (aus dem Griechischen für Wesen Geburt Entstehung) beschäftigt sich mit den Vorgängen des Wachstums und der Entwicklung einzelner Organismen. Sie hat ihren Ursprung in der Embryologie. Im Hochdurchsatz lassen sich die genetische Kontrolle von Zellwachstum, Zelldifferenzierung und Zellspezialisierung in verschiedenen Zelltypen und Organen erforschen. Hierbei werden diverse Techniken wie Forward Genetics und Reverse Genetics angewandt [87]. Damit ist es beispielsweise möglich, gezielt die Expression von Genen auszulösen oder zu verhindern. Durch die Techniken lassen sich Einblicke in die Funktion und Wirkungsweise der Gene gewinnen. Das Potenzial von Hochdurchsatz-Untersuchungen im Zebrabärbling wir u.a. in [24, 127, 144] aufgezeigt.
Toxikologische Forschung:
Hier wird der Einfluss von Chemikalien auf den Organismus erforscht und Substanzen bezüglich der Stärke ihrer Toxizität untersucht. Es existieren auch bereits Regularien, die den sog. Fisch Embryo Test (FET) beschreiben und festlegen, wie eine Hochdurchsatz-Untersuchung für toxikologische Versuche und Frischwasser-Untersuchungen durchgeführt werden soll [22, 68, 105, 118, 121, 122]. Der Test soll dazu dienen, eine Vielzahl von Tierversuchen an ausgewachsenen Fischen zu vermeiden. Die Toxizitäts-Tests müssen laut den gesetzlichen Vorschriften, wie sie in REACH111Verordnung (EG) Nr. 1907/2006 des Europäischen Parlaments und des Rates vom 18. Dezember 2006 zur Registrierung, Bewertung, Zulassung und Beschränkung chemischer Stoffe (REACH) gefordert sind, für nahezu jede Chemikalie auf dem Markt durchgeführt werden [83, 178]. Substanzen, vor allem Kunststoffe, Verbundstoffe und Polymere, die eine Jahresproduktion von einer Tonne erreichen, müssen nach dem neuen EU Gesetz ökotoxikologisch getestet werden. Unter das Gesetz fallen seit 2007 ca. 30.000 Substanzen. Die Toxizitäts-Tests mittels Tierversuchen durchzuführen, würde bis zu 8 Mio. EUR pro Substanz kosten und jeweils bis zu 5 Jahre dauern [131]. Daher investierte die EU seit 1986 über 300 Mio. EUR in alternative Tests, welche die Anzahl an Tierversuchen reduzieren können [1]. Ein weiterer (öko)toxikologischer Anwendungsbereich ist die Bestimmung der Toxizität von Sedimentgestein [73]. Hierfür wird der Dantox-Test (von danio rerio, der lateinischen Bezeichnung des Zebrabärblings) in einem BMBF-Projekt gefördert222DanTox - Entwicklung und Anwendung eines Verfahrens zur Ermittlung spezifischer Toxizität und molekularer Wirkungsmechanismen sedimentgebundener Umweltschadstoffe mit dem Zebrabärbling (Danio rerio). Die Aussagekraft und Anwendbarkeit von Hochdurchsatz-Untersuchungen im Zebrabärbling wurde allgemein bestätigt, jedoch wird diskutiert, inwieweit die Membranfunktion der Frucht- oder Eihülle um die Zebrabärblingslarve die Ergebnisse gegenüber den herkömmlichen Testverfahren verfälscht [21, 57, 84, 85, 171, 183]. Das Potenzial der Hochdurchsatz-Untersuchung im Zebrabärbling auf diesem Gebiet wird ausführlich beschrieben in [24, 45, 58, 106, 152, 163, 167, 183]. Limitierungen sind dem Verfahren allerdings durch die Bindung an das Wasser gesetzt. So können z.B. nicht wasserlösliche Substanzen oder Gase mit Hilfe des Fisch Tests oder Fisch Embryo Tests nur unzureichend getestet werden.
Pharmakologische Forschung:
Hier werden Chemikalien und kleine Moleküle bezüglich ihrer Eignung als Medikamente geprüft. Das Ziel ist es, Wirkstoffe zur Behandlung bisher unheilbarer Krankheiten oder Alternativen zu bereits etablierten Wirkstoffen zu finden [23, 64, 48]. Bei pharmakologischen Hochdurchsatz-Untersuchungen
- •
wird die Wirkung und das Wirkungsspektrum qualitativ und quantitativ ermittelt,
- •
wird versucht, den Angriffspunkt sowie den Wirkungsmechanismus zu klären,
- •
der Einfluss auf verschiedene Organfunktionen festgestellt,
- •
die lokale und allgemeine Verträglichkeit geprüft und
- •
auf toxische Effekte geachtet.
Das Potenzial für Hochdurchsatz-Untersuchungen im Zebrabärbling auf diesem Gebiet wird ausführlich beschrieben in [12, 13, 20, 33, 184]. Eine Übersicht, welche detektierbaren oder vergleichbaren Auswirkungen menschliche Krankheiten bzw. Krankheitserreger auf den Zebrabärbling haben sowie eine Tabelle wichtiger Forschungsarbeiten bietet [91].
2 Grundlagen zur Bildakquise & -verarbeitung für den Hochdurchsatz
Um eine Hochdurchsatz-Untersuchung durchzuführen, müssen, wie bereits in Abschnitt 1 beschrieben ist, Biosignale erfasst werden. Dabei ist ein solches Signal immer notwendige Voraussetzung, unerheblich, auf welchem der Anwendungsgebiete aus Abschnitt 1 die Hochdurchsatz-Untersuchung durchgeführt werden soll. Für die unterschiedlichen Signale bietet der Markt spezielle Detektoren an. Die Dimension und der Aufwand der Akquise müssen dem Signal angepasst werden, um ein für den Hochdurchsatz geeignetes Signal-Rausch-Verhältnis zu erreichen [38]. Wird die Auswahl auf optische Signale beschränkt, so quantifizieren alle Detektoren die Menge an einfallendem Licht. Das auf den Sensor projizierte Signal ist zunächst nichts weiter als eine zweidimensionale, zeitabhängige, kontinuierliche Verteilung von Lichtenergie. Die Lichtenergie kann ihren Ursprung in einer Lichtquelle oder in einer fluoreszierenden Zelle haben. Der Detektor hat die Aufgabe, drei wesentliche Schritte zu erfüllen [70]:
- •
Eine räumliche Abtastung der kontinuierlichen Lichtverteilung,
- •
eine zeitliche Abtastung der daraus resultierenden Funktion und
- •
eine Quantifizierung zur digitalen Darstellbarkeit und Verarbeitung.
Ein typisches Sensorelement ist eine Photodiode, deren Messung in der digitalen Repräsentation als Pixel bezeichnet wird. Je nach Anordnung der Sensorelemente, geschickter Auswahl von Beleuchtungstechniken, zeitlichen Aufnahmen usw. lässt sich die Dimension, also die zeitliche bzw. räumliche Abtastung des akquirierten Datensatzes, beeinflussen. Die räumliche Abtastung (spatial sampling) erfolgt in der Regel durch die Geometrie des Detektors, die zeitliche Abtastung (temporal sampling) geschieht durch Steuerung der Zeit, über die die Messung der Lichtmenge durch die einzelnen Sensorelemente erfolgt. Werden zu mehreren Zeitpunkten Bilder akquiriert, entsteht eine Bildsequenz. Wie sich mehrdimensionale Repräsentationen von Zebrabärblingslarven mittels solcher Detektoren akquirieren lassen, wird im Verlauf der vorliegenden Arbeit aufgezeigt.
Wird lediglich ein Sensorelement oder eine Reihe solcher verwendet, lassen sich eindimensionale Signale akquirieren. In [16, 126, 132] werden solche Detektoren beispielsweise eingesetzt, um die Menge an abgeschattetem Licht oder die Stärke an Fluoreszenz zu quantifizieren. Eine kontinuierliche Aufnahme von Messwerten ist mittels fast aller Detektoren möglich und ergibt eine Zeitreihe. Wird eine Zebrabärblingslarve definiert an einem Sensor vorbei geführt, so lässt sich ein Profil über der Zeit aufzeichnen. Ein besonders hoher Durchsatz lässt sich erzielen, wenn Zebrabärblingslarven in einem Schlauch fortwährend geprüft werden. Die Information über den Ort der Quelle des Signals geht hierbei verloren oder ist durch die Anbringung des Sensors fix.
Abb. 4 zeigt eine Überlagerung einer zweidimensionalen Fluoreszenzaufnahme und Profile eindimensionaler Detektoren im Vergleich. Der erste Detektor (grüne Linie) quantifiziert die Menge an abgeschattetem Licht, d.h. je höher der Wert, desto weniger Licht durchdringt die Larve. Der zweite Detektor (rote Linie) quantifiziert die Menge an von der Larve fluoreszierend ausgesendetem Signal, welches aufgrund eines anregenden Lasers ausgesendet wird. Der Vorteil der Methode liegt im erreichbaren Durchsatz und im günstigen Preis, während auf die Information der zweiten Ortskoordinate und eine bessere örtliche Auflösung verzichtet werden muss.
Eine typische Kamera, wie sie auch zur Akquise von Zebrabärblingen verwendet wird, enthält eine regelmäßige und rechtwinklige Anordnung solcher Sensoren bzw. Sensorelemente. Das aufgezeichnete Bild ist somit eine Matrix mit den ganzzahligen Koordinaten ; von Pixelwerten innerhalb der Farbtiefe :
[TABLE]
Für die Farbtiefe werden üblicherweise positive ganze Zahlen im Bereich benutzt. Ein typisches Bild kann beispielsweise bit besitzen und die Intensitätswerte annehmen. Kleine Werte stehen hierbei für dunkle und hohe Werte für helle Pixel.
Die 2D-Repräsentation eines dreidimensionalen Zebrabärblings ist je nach verwendetem Mikroskop, Objektiv, numerischer Apertur etc. meist nicht über die gesamte Tiefe des Modellorganismus scharf. Die optischen Limitationen beschränken die Fokusebene auf einen bestimmten Bereich, die sog. Tiefenschärfe [145]. Eine dennoch scharfe Abbildung des gesamten Zebrabärblings kann erfolgen, indem mehrere Bilder unterschiedlicher Fokusebenen fusioniert werden. Die Technik wird als Extended Focus bezeichnet [47, 170]. Hierbei wird über alle aufgenommenen Fokusebenen mittels einem Algorithmus (beispielsweise der Wavelet-Transformation) bestimmt, welche Pixel in welcher der Fokusebenen eine scharfe Abbildung des Objektes sind. Lediglich die scharf abgebildeten Pixel werden in einem einzigen resultierenden Bild mit erweitertem Fokus gespeichert. Aus der räumlichen Position des Pixels kann weiter eine dreidimensionale Repräsentation rekonstruiert werden. Da keine Information vom Inneren des Volumens und von den verdeckten Flächen vorhanden ist, wird hier von einer 2,5D-Abbildung gesprochen (vgl. Abb. 6).
Vollständige Volumenmodelle des Fisches lassen sich zerstörungsfrei aus Schichtaufnahmen, wie sie beispielsweise mittels der Konfokal-Mikroskopie akquiriert werden können, erstellen. Die Schichtaufnahmen werden im Rechner zu einem vollständigen 3D-Modell verbunden. Der Detektor ist auch hier ein herkömmlicher 2D-Detektor. Entscheidend für die Ermöglichung der dreidimensionalen Akquise ist das Vorhandensein und die definierte Anregung von fluoreszierenden Zellen im Zebrabärbling sowie die spätere Zuordnung der örtlichen Information. Werden die Techniken der dreidimensionalen Fluoreszenzmikroskopie mit einer zeitlichen Aufnahme kombiniert wie beispielsweise bei der SPIM-Methode (vgl. Abb. 6), so lassen sich vierdimensionale Datensätze aufzeichnen [63, 74].
3 Existierende Lösungsansätze
Trotz den in Wirtschaft und Forschung weit verbreiteten, meist zellbasierten Hochdurchsatz-Untersuchungen existieren nur wenige Publikationen, die, basierend auf Zebrabärblingen, Hochdurchsatz-Untersuchungen realisieren. Aus der Erfahrung der zellbasierten Untersuchungen ist bekannt, dass sowohl die Durchführung der Hochdurchsatz-Untersuchung als auch deren Auslegung strukturiertes Vorgehen verlangt. Die wichtigsten Arbeiten und deren Vorgehensweise werden im Folgenden kurz zusammengefasst.
Existierende bildbasierte Hochdurchsatz-Untersuchungen im Zebrabärbling
In der Literatur sind verschiedene Ansätze zu finden, die das große Potenzial des Zebrabärblings für den Hochdurchsatz tatsächlich nutzen. Alle unterscheiden sich in der Art der Umsetzung, wie etwa dem Automatisierungsgrad oder der verwendeten Software. Es zeichnen sich bisher weder standardisierte Vorgehensweisen ab, noch hat sich eine Software etabliert. Zwar existiert in der Literatur eine freie, auf die Verwendung mit Zebrabärblingen spezialisierte Bildverarbeitungs-Software. Die Software befindet sich allerdings in einem sehr frühen Entwicklungsstadium und wurde seit 2009 nicht weiter aktualisiert [95, 94, 96]. Alle veröffentlichten, bildbasierten Siebtest-Untersuchungen größeren Umfangs verfolgen ein eigens erstelltes Konzept mit einer eigens erstellten Bildverarbeitungsroutine oder benötigen eine kommerzielle und spezialisierte Plattform[28, 52]. Tabelle 2 bietet eine Auswahl an Hochdurchsatz-Untersuchungen, eine weitere Übersicht findet sich in [89].
In den Untersuchungen von [49] werden sowohl Hellfeld-Aufnahmen in unterschiedlichen Fokusebenen als auch Fluoreszenzsignale, nach manueller Vorarbeit, automatisiert akquiriert und die Stärke des Fluoreszenzsignals mittels spezialisierten Algorithmen den Regionen im Fisch zugeordnet und miteinander verglichen. Da es sich beim Ziel der Untersuchung um die Identifikation von Genkombinationen handelt, kommen keine Chemikalien während des Screenings zum Einsatz. Die hochspezialisierte Bildverarbeitung leistet sowohl die Rotation der Fische als auch die vollautomatische Erkennung von Regionen sowie die Messung und Zuordnung von Fluoreszenzsignalen zu einzelnen Bereichen. Schließlich erfolgt die Auswertung und Visualisierung der Ergebnisse in sog. Fingerprints, bei denen der Stärke des Signals eine Helligkeit und der Region im Fisch jeweils eine Farbe und ein Teil eines Rechtecks zugeordnet werden. Dies ermöglicht das schnelle Vergleichen und Ordnen der Ergebnisse sowie das Ableiten von Schlussfolgerungen. Die gesamte Programmierung, Bild- und Datenauswertung erfolgt mit der Software MATLAB333The MathWorks, Inc.. Es sei angemerkt, dass in [82] vorgeschlagen wird, solche Fingerprints mittels moderner cloudbasierter Techniken zu vernetzen.
In [30] führen die Autoren die Hochdurchsatz-Untersuchung zwar vollständig manuell durch, zeigen jedoch nur das Hochdurchsatz-Potenzial ihrer Methode auf, ohne derartige Versuche durchzuführen. Ziel ist es, einen mutierten Zebrabärbling zu identifizieren, dessen Phänotyp ein gekrümmter Rücken ist. Die Autoren stellen einen sehr einfachen Bildverarbeitungsalgorithmus vor, der in der Lage ist, den Rücken der Tiere zu finden und auf Krümmung zu prüfen. Bei zu dicht beieinander auftretenden Fischen versagt die Methode jedoch. Die Autoren vergleichen die Ergebnisse ihrer automatischen mit einer manuellen Analyse, kommen zu übereinstimmenden Ergebnissen und schließen so auf Hochdurchsatz-Fähigkeit des Verfahrens. Zur Steuerung der Mikroskope kommt die Software Metamorph444Molecular Devices, LLC, USA zum Einsatz. Die Autoren machen keine Angabe, in welcher Software die Bildverarbeitung realisiert wurde.
In [67] wird die zurückgelegte Distanz von Zebrabärblingslarven sowohl bei Helligkeit als auch im Dunkeln gemessen. Die Vorbereitung der Larven erfolgt manuell, während die Bildakquise innerhalb einer kommerziell erhältlichen gekapselten Box der Firma Noldus555Noldus Information Technology ohne Verwendung eines Mikroskops erfolgt. Die Bilder werden lediglich mittels einer Industriekamera akquiriert. Die Bildverarbeitung erfolgt durch Verwendung einer Tracking-Software der Firma Noldus.
Das Ziel der Autoren in [126] ist die Durchführung einer Machbarkeitsstudie, um eine neue Automatisierungstechnik zur Analyse von Zebrabärblingen zur Verfügung zu stellen. Die Autoren stellen einen komplexen Apparat vor, der den Fisch innerhalb eines Schlauchs in einer Glas-Kapillaren transportiert, dort rotiert und währenddessen Bilder akquiriert. Durch die Akquise von allen Seiten wird das Problem der undefinierten Lage der Tiere gelöst, welches bei herkömmlicher Mikroskopie unumgänglich ist. Eine belastbare Anwendung der Konstruktion im Hochdurchsatz wurde bis zum heutigen Zeitpunkt jedoch noch nicht vorgestellt.
In [41] bedienen sich die Autoren eines automatisierten Mikroskops, wie es in [90] vorgestellt ist. Es werden automatisiert mehrere Fluoreszenzkanäle akquiriert und es wird gezeigt, dass die Auswertung mittels eines automatisierten Skriptes erfolgen kann. Anders als in der Arbeit von [49] wird hier nicht der gesamte Fisch in Regionen aufgeteilt, sondern es werden lediglich Regionen von Interesse im Fisch (sog. Neuromasten) erkannt und die Menge an Fluoreszenz gemessen. Ein Vergleich der automatisierten mit der manuellen Auswertung ergibt ähnliche Ergebnisse. Da die Bildverarbeitung nicht in der Lage ist, jede der manuell erkennbaren Regionen zu identifizieren, ist es notwendig, die Menge an untersuchten Fischen zu erhöhen, um zu gleichen Ergebnissen von manueller und automatischer Analyse zu kommen. Die Steuerung der Mikroskope sowie die Bildverarbeitung wurde mit Hilfe der Software Labview666National Instruments Corporation realisiert.
In [143] werden Schlaf- und Aktivitätsphasen der Fische klassifiziert und sog. Verhaltensprofile erstellt. Die Profile werden für über 5 000 Substanzen ermittelt. Das Beobachten und Tracken der Fische erfolgt mittels einer kommerziell erhältlichen Box der Firma Viewpoint777Viewpoint S.A. - Viewpoint Life Sciences, Inc., welche wie in [67] auf ein Mikroskop verzichtet, lediglich Hellfeld-Aufnahmen durchführt und eine Tracking-Software nutzt. Das Verhaltensprofil der mit Chemikalien exponierten Fische wird mit dem der unbehandelten Fische verglichen. Abweichungen können mittels eines Farbcodes visualisiert und gruppiert werden. Mit der vorgestellten Methode lassen sich ähnlich wirkende Substanzen schnell zusammenfassen.
In [80] werden Fische mittels eines Stimulus zu einer Bewegung animiert. Während des Experiments wird die Bewegung der Fische durch ein automatisches Mikroskop der Firma Nikon und einer Kamera aufgezeichnet. Die Synchronisierung der Hardware sowie die Bildauswertung erfolgt mittels der Software Metamorph888Molecular Devices, LLC, USA. Es werden über 14 000 Substanzen geprüft und vergleichbar zu [143] wird eine Gruppierung der Substanzen vorgenommen, die auf einem Vergleich der Auswirkungen der Substanzen basiert.
In [130] wird eine Bildanalyse bereits während der Bildakquise eingebunden. Dies hat den Vorteil, dass nicht relevante Strukturen oder Proben aussortiert werden können, wohingegen Bereiche im Fisch von Interesse in hoher Auflösung akquiriert werden. Die Mikroskopsteuerung und Bildverarbeitung erfolgt vollständig mittels einer skriptbasierten speziellen Kombination aus XML-Dateien999XML = Extensible Markup Language (engl. für „erweiterbare Auszeichnungssprache“) und Labview-Skripten101010National Instruments Corporation.
In [93] werden Larven durch ein automatisches System vorbereitet und mit Nanopartikeln beaufschlagt. Aus einer Reihe von Merkmalen, die aus den Bildern extrahiert werden, lassen sich drei verschiedene Endpunkte automatisch identifizieren. Das System wird an ca. 1000 Embryonen demonstriert. Die Erfolgsquote liegt bei über 90%[23, 64, 48].
In [35] werden Larven automatisiert durch Injektion mit Tuberkulosebakterien infiziert. Es wird ein technisch realisierbarer Durchsatz von 2000 Larven pro Stunde angeführt. Das kommerzielle COPAS System wird zur Analyse der Daten verwendet.
In [174] findet ein kommerzielles hochspezialisiertes Auswertesystem für Mikrotiterplatten (Tecan Infinite M1000) Anwendung. Es wird ein theoretisch sehr hoher Durchsatz von über 50000 Einheiten pro Tag angegeben. Das System ist allerdings beschränkt auf Auswertungen in Fluoreszenzaufnahmen.
Die vorgestellten Hochdurchsatz-Untersuchungen am Zebrabärbling sind bislang oftmals noch auf manuelle Schritte bei der Versuchsvorbereitung angewiesen. Es existieren jedoch bereits automatische robotergestützte Verfahren, deren Ziel es ist, eine vollständige Automatisierung der Vorbereitung der Untersuchungen zu ermöglichen. Um DNA, RNA oder Proteine in Zebrabärblingseier einzubringen, wird beispielsweise die Mikroinjizierung angewandt [182]. Der Vorbereitungsschritt wurde bereits mehrfach durch automatisierte Systeme gelöst [59, 98, 175, 181]. Ebenso existieren Lösungsansätze zur automatischen Bestückung der Mikrotiterplatten sowie der automatischen Entfernung des Chorions, welches die Zebrabärblingseier umgibt [102, 186].
Einige der Veröffentlichungen beschäftigen sich speziell mit der Analyse des Herzschlags im Zebrabärbling. Anders als die in Tabelle 2 aufgeführten Publikationen beschränken sich die Untersuchungen auf die methodische Durchführbarkeit etwa durch Extraktion des Signals der roten Blutkörperchen aus Hellfeld-Aufnahmen [14] oder die Detektion des Herzschlags ohne ein Markieren des Herzens bzw. der Zellen [15]. Sie erfordern zumeist ein exaktes Positionieren der Larven [36, 123]. Allen ist gemein, dass bisher keine systematische Analyse in größerem Umfang durchgeführt wurde, was meist auf die komplizierten manuellen Präparationsschritte zurückgeführt werden kann. Somit war ein Einordnen in die Tabelle 2 nicht möglich.
Es existieren eine ganze Reihe weiterer Ansätze, von denen hier nur auf eine Auswahl der wichtigsten eingegangen werden konnte. Dabei wurden vor allem die jüngeren Veröffentlichungen aufgeführt und solche, die eine hohe Stückzahl bzw. einen hohen Durchsatz erzielen.
4 Offene Probleme
Zusammenfassend ergibt sich aus den vorangegangenen Abschnitten die Erkenntnis, dass der Zebrabärbling nach übereinstimmender Meinung vieler Autoren erhebliches Potenzial für den Hochdurchsatz besitzt. Offensichtlich ist jedoch, dass aufgrund einer Reihe offener Probleme bisher nur ein geringer bis mittlerer Durchsatz erzielt werden konnte. Die wesentlichen technischen Probleme, weshalb Hochdurchsatz-Untersuchungen im Zebrabärbling bisher scheitern, sind:
Entwurf der Hochdurchsatz-Prozesskette:
Bisher existiert kein systematisches Entwurfskonzept einer Hochdurchsatz-Prozesskette. Alle publizierten Ansätze versuchen lediglich, manuelle Schritte teilweise oder ganz zu ersetzen. Die technischen, logistischen und informationstechnischen Voraussetzungen sind bei einer Anzahl von mehreren tausend Versuchen pro Tag jedoch komplex, daher bedarf es einer strukturierten Planung. 2. 2.
Auswahl der geeigneten Art der Datenakquise:
Die Wahl der Art der Datenakquise aller in der Literatur vorhandenen Lösungsansätze basiert im Wesentlichen auf der Erfahrung und dem Equipment, welches dem Entwickler zur Verfügung steht. Entscheidende Vor- und Nachteile der einzelnen Methoden werden nicht oder nur unzureichend berücksichtigt bzw. ausgeschöpft. Dies führt zu ineffizienter Datenakquise, oft unzureichenden Daten oder zu Datenvolumina, die ohne entsprechendes Fachwissen nicht zu bewältigen sind. 3. 3.
*Entwicklung und Auswahl geeigneter Bildverarbeitungs- und Datenanalysealgorithmen: *
Ein systematischer Überblick über existierende Methoden und deren Anwendbarkeit für die biologischen Hochdurchsatz-Untersuchungen mit Zebrabärblingen existiert nicht. Ähnlich der Auswahl der Datenakquise-Methode werden auch die Bildverarbeitungs-Methoden basierend auf Vorlieben der Entwickler und dessen Kenntnisstand ausgewählt. Gleiches gilt für die gesamte Datenverarbeitung einschließlich Normierungs-, Klassifikations- und Visualisierungsstrategien. 4. 4.
Es existiert keine systematische Abstimmung der Datenakquise und Datenverarbeitung:
Die Bildverarbeitung muss oft auf unzureichend und nicht auf die Bedürfnisse der automatisierten Auswertung abgestimmte Bilddaten zurückgreifen. Die beiden zuvor genannten Punkte sind hochgradig voneinander abhängig, werden bei der Versuchsauslegung jedoch kaum aufeinander abgestimmt. Es existieren keine Untersuchungen bezüglich der Auswirkung der Auswahl bestimmter Akquise-Methoden auf die Auswertung und umgekehrt.
3 Ziele und Aufgaben
Hochdurchsatz-Untersuchungen stellen ein leistungsstarkes Mittel zum Erlangen neuer Erkenntnisse in den Wissensgebieten der Genetik, Toxikologie oder Pharmazie dar. Lösungen für Hochdurchsatz-Untersuchungen existieren bereits, beschränken sich jedoch entweder auf Versuche mit Zellen oder können, wenn sie einen gesamten Modellorganismus verwenden (wie z.B. den Zebrabärbling), den gewünschten hohen Durchsatz nicht erreichen. Ein System zu finden, welches die Vorteile der Hochdurchsatz-Untersuchung mit denen eines gesamten Modellorganismus verbindet, ist demnach von beachtlichem Wert. Ziel der vorliegenden Arbeit ist es daher, ein Konzept zu entwickeln, welches den systematischen Entwurf einer bildbasierten Hochdurchsatz-Untersuchung auf Basis des Zebrabärblings im Hinblick auf die Automatisierbarkeit ermöglicht. Hierfür sind die folgenden wissenschaftlichen Teilziele notwendig:
- Herleitung eines Konzeptes
Ein Konzept zur Versuchsauslegung ist zu entwickeln. Dieses muss universell einsetzbar und an die jeweilige biologische Fragestellung und den gewünschten Durchsatz adaptierbar sein.
- Ableitung von Auswertungskriterien
Zur Beurteilung der Durchführbarkeit und zum Entwurf einer Hochdurchsatz-Untersuchung sind Kriterien zu finden, die in der Lage sind, bekannte und neue Lösungsansätze zu analysieren und zu bewerten.
- Entwicklung neuer Datenverarbeitungsverfahren
Neue Daten- und Bildverarbeitungsverfahren sind im Hinblick auf die Anforderungen der Hochdurchsatz-Untersuchung abzuleiten.
- Anpassungsfähige Implementierung
Um die einfache und benutzerfreundliche Anwendbarkeit der Verfahren zu sichern, ist eine grafische Benutzeroberfläche zu entwickeln, die die erarbeiteten Lösungen in sich vereint und den direkten Zugriff und die Visualisierung der Ergebnisse ermöglicht.
- Experimentelle Erprobung am Zebrabärbling
Im Hinblick auf die Besonderheiten, die sich bei der Verwendung des Zebrabärblings bei Hochdurchsatz-Untersuchungen ergeben, ist das entwickelte Verfahren zu konkretisieren. Insbesondere biologische, technische Assistenten müssen ohne Expertenwissen im Bereich der Datenverarbeitung in der Lage sein, Versuchsdaten einzulesen und auszuwerten.
- Ableitung einer Aussage über die Leistungsfähigkeit
Zum Nachweis der Funktionalität sind Fallstudien durchzuführen. Die Ergebnisse geben Auskunft über den erreichbaren Durchsatz und die erreichbare Qualität des neu entwickelten Verfahrens.
In Kapitel 1 werden zunächst die Anforderungen an das zu entwickelnde Verfahren definiert und das neue Konzept zur Versuchsauslegung vorgestellt. Mit Hilfe des Konzeptes ist es dann möglich, die Versuchsauslegung zu konkretisieren und die Versuchsparameter anforderungsgemäß zu wählen. Die zur technischen Umsetzung des Konzeptes neu entwickelten Methoden werden anschließend in Form von Modulen in Kapitel 2 vorgestellt. Darauf aufbauend vereint Kapitel 3 die vorgestellten Methoden in einer grafischen Benutzeroberfläche, welche Zugriff auf alle wichtigen Parameter der Datenverarbeitung bietet. Anwendung findet das erarbeitete Verfahren in Kapitel 4 anhand konkreter biologischer Problemstellungen, für welche eine hochdurchsatzfähige Lösung vorgestellt wird. Eine Zusammenfassung der wesentlichen Ergebnisse der Arbeit sowie ein Ausblick über weitere mögliche Untersuchungen sind Gegenstand von Kapitel 5.
Kapitel 1 Neues Konzept zur Versuchsauswertung von Hochdurchsatz-Untersuchungen am Zebrabärbling
1 Übersicht
In diesem Kapitel wird erstmals ein zielgerichtetes, systematisches Konzept zur Versuchsauswertung bei Hochdurchsatz-Untersuchungen vorgestellt.
Ein solches Konzept kann unter Praxisbedingungen für Hochdurchsatz-Untersuchungen an Zebrabärblingen nur dann erfolgreich sein, wenn es die Schritte
- •
Definition der Versuchs- und Auswerteparameter und
- •
anforderungsgerechte Versuchsauslegung
beinhaltet.
In Abschnitt 2 wird zunächst das Konzept beschrieben. Darauf aufbauend werden die notwendigen Anforderungen bezüglich der Durchführbarkeit, der Messbarkeit und der Auswertbarkeit von Hochdurchsatz-Untersuchungen zusammengetragen (Abschnitt 3). In Abschnitt 4 werden Versuchs- und Auswerteparameter identifiziert und daraufhin mathematisch beschrieben (Abschnitt 5). Auf den Ergebnissen aufbauend wird abschließend die Vorgehensweise zur anforderungsgerechten Versuchsauslegung vorgestellt (Abschnitt 6).
2 Neues Konzept zur Versuchsauswertung
Der Auslegung bildbasierter Hochdurchsatz-Untersuchungen kommt aufgrund der hohen Spezifizierung auf das Nutzsignal eine entscheidende Bedeutung für den Erfolg des Versuchs zu. Durch die Biologie muss festgelegt werden, welches das Nutzsignal, d.h. die Information von Interesse, im zu untersuchenden Informationsträger ist. Das Nutzsignal (z.B. eine sich bewegende Zebrabärblingslarve) muss daraufhin mit geeigneten Mitteln (z.B. Vereinzelung der Larven) derart präpariert werden, dass die Bildakquise und deren Verfahren (z.B. Mikroskopie) das Nutzsignal in Bilddaten abbilden kann. Die Daten müssen schließlich innerhalb des Blockes *Analyse und Interpretation *nach neuen Erkenntnissen bezüglich der Fragestellung des Versuchs ausgewertet werden. Die Auswertung erfolgt manuell oder durch eigens entwickelte bzw. entsprechend adaptierte Auswertealgorithmen. Dabei wirken sowohl auf die Biologie als auch auf die Bildakquise Störungen, die Einfluss auf die objektive Realität oder deren Abbildung haben.
Die biologischen Schritte zur Bereitstellung der Nutzinformation berücksichtigen bisher lediglich, inwiefern die Information mittels Bildakquise erfasst werden kann, nicht ob sich diese zur (automatisierten) Auswertung eignet und ob Möglichkeiten zur Skalierung bestehen. Abb. 1a stellt die heutige Vorgehensweise bei der Auslegung dar. In Biologie und Bildakquise werden durch Versuchsparameter die Randbedingungen festgelegt. Auf den Versuch wirkt eine Störung in Form von Störfaktoren. In den biologischen Schritten wird eine Nutzsignalinformation (kurz: Nutzinformation) bereitgestellt, die in den Bilddaten abgebildet und durch Analyse und Interpretation einer Klasse zugeordnet wird. Die Klassenzuordnung geschieht bisher manuell. In neueren Arbeiten wird nun versucht, den manuellen Schritt durch eine Nachahmung der manuellen Arbeit zu ersetzen. Hierfür sind Auswerteparameter notwendig. Das Ergebnis sind geschätzte Klassenzugehörigkeiten. Ebenso lassen sich die Störungen bzw. deren Klassenzugehörigkeiten schätzen. Der Anteil an automatisch ausgeführten Auswertungen ist klein, was durch den deutlich kleineren Block im Schaubild visuell verdeutlicht wird. Die Auswahl der Versuchsparameter wie z.B. der Akquise-Methode beruht meist auf einer individuellen, nicht systematischen Entscheidungsgrundlage wie „Verfügbarkeit der Mikroskope“ oder „persönliche Expertise des Laboranten“ etc. Die in der Literatur zu findenden Hochdurchsatz-Untersuchungen führen die Versuchsauslegung oft willkürlich, aus Erfahrungswerten oder anhand der vorhandenen Mikroskop- und Rechnerinfrastruktur durch [127, 147, 168]. Ein methodisches und ganzheitliches Vorgehen ist jedoch unumgänglich, um neuartige drei-, vier- oder auch n-dimensionale (durch Berücksichtigung von Veränderungen im Raum und über die Zeit) Datensätze effizient auswerten zu können. Des Weiteren basieren die Ergebnisse aller sich anschließenden Analyse- und Interpretationsschritte auf den derart akquirierten Bilddaten. Die Qualität der Bilddaten limitiert somit die erreichbare Qualität des Versuchs. Die Auswertung erfolgt bisher in weiten Teilen manuell oder mittels (semi)automatischer Auswerteroutinen (vgl. Literaturübersicht in Tabelle 2). Die weitgehend individuelle und ungeordnete Versuchsauslegungsphilosophie hat den Nachteil, dass nachfolgende Verarbeitungsschritte nicht in die Entscheidungsfindung zur Parameterwahl mit einbezogen werden. Dies ist auch ein Grund, weshalb sich zur Zeit nur ein geringer Anteil der Analyse- und Interpretationsschritte automatisiert durchführen lässt. Deshalb führt die vorliegende Arbeit eine Analyse der Parameter durch, um eine Versuchsauslegung anforderungsgerecht durchführen zu können.
Das hier vorgeschlagene neuartige Konzept zur Versuchsauslegung der Hochdurchsatz-Untersuchung bildet gemäß Abb. 1b ebenfalls die Nutzinformation mittels Bilddaten ab, jedoch werden alle Entscheidungen, Versuchs- sowie Auswerteparameter zielgerichtet auf die spätere automatisierte Auswertung hin getroffen. Der Prozess der Versuchsauslegung wird ganzheitlich vorgenommen und der Einfluss der jeweils getroffenen Entscheidung nicht nur auf den sich direkt anschließenden Schritt, sondern auf alle Blöcke betrachtet. Die ganzheitliche Betrachtung schließt die Auswahl der Akquise-Methode sowie die Identifikation möglichst vieler Störgrößen ein. Auf Basis der gesammelten Information werden Versuchsparameter gewählt. Des Weiteren wird der Anteil der automatisch vollzogenen Analyse und Interpretation stark erhöht, was durch den großen Block verdeutlicht ist. Der manuelle Anteil ist deutlich kleiner und dient im optimalen Fall lediglich dazu, eine Wissensbasis für die automatische Auswertung zu schaffen. Der ausgewertete oder gelabelte (von engl. to label = markieren, beschriften) Datensatz der Wissensbasis wird verwendet, einen Klassifikator anzulernen, mit dessen Hilfe die Klassenzugehörigkeit unbekannter Daten geschätzt wird. Selbst einer vollständigen Automatisierung der Hochdurchsatz-Untersuchung muss indes zwingend eine manuelle Deutung der Ergebnisse folgen, da das Ziel, bzw. die Art der Treffer, welche durch die Untersuchung aufgezeigt werden sollen, im Vorfeld nicht oder nur unzureichend bekannt sind. Eine Ausnahme bilden selten durchgeführte Hochdurchsatz-Untersuchungen, deren Ziel es ist, eine Hypothese zu prüfen.
Da der bisherige Entwurf der Hochdurchsatz-Untersuchung im Wesentlichen der Versuch ist, die manuellen Schritte der Bildauswertung automatisch nachzubilden, müssen nun für das neue Konzept die Ansprüche aus Biologie und Automatisierungstechnik aufeinander abgestimmt werden. Für diese interdisziplinäre Aufgabe bedarf es einer Schnittstelle, mit deren Hilfe eine erfolgreiche Versuchsauslegung erfolgen kann. Die Schnittstelle sind die Einflussgrößen auf die übergeordneten Blöcke „Biologie“ und „Bildakquise“ sowie „Analyse und Interpretation“. Die entsprechenden Parameter sind demnach die zu bestimmenden Größen bei der Versuchsauslegung. Zwar muss die generelle Struktur der Hochdurchsatz-Untersuchung individuell festgelegt werden, denn die in den Grundlagen der vorliegenden Arbeit bereits aufgezeigte große Bandbreite an möglichen biologischen, toxikologischen und genetischen Untersuchungen schließt eine universell anwendbare Lösung aus. Dennoch lässt sich jede individuell generierte Struktur anhand der Versuchsparameter und Auswerteparameter auslegen und optimieren.
Versuchsparameter fassen hierbei alle Einflussgrößen aus Biologie und Bildakquise zusammen, während Auswerteparameter alle Einflussgrößen beschreiben, die bei der Analyse und Interpretation festzulegen sind. Die Literatur zeigt, dass eine gewissenhafte Auslegung der Parameter den Erfolg der Untersuchung zwar nicht garantiert, wohl aber wahrscheinlich macht und somit notwendige Voraussetzung für das Gelingen der Hochdurchsatz-Untersuchung ist [50, 127, 155]. Eine mangelhaft ausgeführte Planung kann zum Scheitern der Untersuchung führen oder dazu zwingen, den gesamten Versuch wiederholen zu müssen. Da die Durchführung der Untersuchung, je nach Anzahl und Aufwand der Einzelversuche, bis zu mehreren Monaten dauert, ist es sinnvoll, jeden Schritt sorgfältig in Vorversuchen zu prüfen und zu optimieren.
Die Auswirkung einer Anpassung einzelner Parameter zeigt sich meistens erst nach dem Vollzug der vollständigen Prozesskette, daher ist es notwendig, die Auswahl der Parameter iterativ vorzunehmen und in Vorversuchen die gesamte Kette mehrfach zu durchlaufen. Eine Änderung an einer beliebigen Stelle hat Auswirkungen auf viele, wenn nicht alle Teilprozesse. So kann beispielsweise eine geänderte Behandlung der Fischeier oder die Verwendung einer Mutation der Fischeier (z.B. mit einem fluoreszierenden Marker) Änderungen bei der Wahl der Mikroskopie- bzw. Akquise-Techniken erfordern. Eine solche Änderung führt wiederum zu einer Änderung der Auswerteparameter der Analyse, deren Ergebnisse entsprechend in Interpretation und Evaluation neu dargestellt werden müssen.
Zu Beginn wird die Struktur der Hochdurchsatz-Untersuchung geplant, auf deren Basis Vorversuche durchgeführt werden. Ziel ist es, schrittweise eine robuste Zuordnung des Nutzsignals zu einer Klassen- oder Trefferzuweisung zu erhalten, die Anzahl der Einzelversuche zu höheren Werten hin zu skalieren und gleichzeitig den Aufwand pro Einzelversuch so gering wie möglich zu halten. Nach vollzogener Versuchsauslegung soll in einem Versuchsplan feststehen, welche Versuche mit welchen Behandlungen durchzuführen sind, mit welcher Methode die Nutzinformation akquiriert wird und auf welche Art die akquirierten Daten verarbeitet und ausgewertet werden. Das hier vorgestellte Konzept zur Versuchsauslegung beschränkt sich allerdings auf die technische Realisierbarkeit von Hochdurchsatz-Untersuchungen und deren Optimierung. Für weitere Details zur statistischen Versuchsplanung, der Erstellung einer Rahmenvorschrift zur praktischen Durchführung der Einzelversuche und der Minimierung und Optimierung der Anzahl der Versuche sei auf die Fachliteratur zur statistischen Versuchsplanung verwiesen [77, 116, 138, 146].
Eine bildbasierte Hochdurchsatz-Untersuchung besteht üblicherweise aus zwei aufeinander folgenden Teilschritten (vgl. Abb. 2): Der erste Teil, die „Biologie & Bildakquise“, setzt sich zusammen aus einer „Versuchsplanung“, gefolgt von der „Vorbereitung“ der Proben und der „Datenerfassung“. Der zweite Teil, die „Analyse & Interpretation“, besteht aus der „Datenverarbeitung“ sowie deren „Evaluation“. Das vorgestellte Konzept ermittelt die Parameter aller in Abb. 2 dargestellten Blöcke. Der Informations- bzw. Datenfluss verläuft von links nach rechts, während die Parameter auf alle Blöcke Einfluss nehmen und daher übergeordnet sind. Wichtig hierbei ist die Einflussnahme und Berücksichtigung der Auswerte- und Versuchsparameter aufeinander, was durch den Doppelpfeil zwischen den Parameterblöcken visuell verdeutlicht wird.
Die Versuchsplanung im Block „Biologie & Bildakquise“ steht für die statistische Versuchsplanung. Das Vorgehen bei der statistischen Versuchsplanung sollte sich an der entsprechenden Fachliteratur orientieren und die Prinzipien der Wiederholung, Randomisierung und Blockbildung berücksichtigen [11, 77, 116, 138, 146]. Ergebnis des Blockes „Versuchsplanung“ ist ein statistisch optimaler Versuchsplan, welcher die Anzahl der Einzelversuche und deren jeweilige Behandlung festlegt und optimiert. Für das vorgestellte Konzept sind die innerhalb der statistischen Versuchsplanung identifizierten Störfaktoren von Bedeutung. Der Block „Vorbereitung“ bezieht sich auf alle Präparationen, die dazu beitragen, eine maximale Qualität der Datenakquise zu erzielen. Bei biologischen Versuchen besteht oftmals die Möglichkeit, eine Versuchseinheit derart vorzubereiten, dass die Nutzinformation besser erkennbar wird. Ein Beispiel ist die Betäubung und Ausrichtung der Zebrabärblingslarven. Unterschiedlich aufwändige Präparationsschritte bieten so die Möglichkeit, die Bildauswertung zu vereinfachen. In manchen Versuchen ist das Ausrichten sogar zwingend erforderlich, um das Nutzsignal erfassen zu können. Werden die Larven bei der Präparation z.B. durch speziell geformte Platten immer lateral ausgerichtet, können Bereiche im Zebrabärbling leichter anhand von geometrischen Beziehungen gefunden werden [49]. Versuchsparameter sind somit alle gewählten Vorbereitungsschritte und Störfaktoren, z.B. die gewählte Position der Versuchseinheit in der Mikrotiterplatte.
Die Datenerfassung zeichnet mittels der gewählten Akquise-Methode einen Bildstrom auf. Je detaillierter der aufgenommene Bildstrom ist, desto mehr (Nutz)Informationen enthält er. Allerdings steigt die Größe des Datensatzes. Der Anteil an „unnötigen“, d.h. Hintergrundinformationen, wächst meist überproportional, was die Gefahr birgt, dass die Daten allein aufgrund der Datenmenge schwer zu verarbeiten und zu archivieren sind. Auch der Aufwand für die Extraktion des Nutzsignals steigt. Vor allem bei neuartigen mehrdimensionalen Mikroskopietechniken wie etwa der SPIM-Mikroskopie (vgl. Abschnitt 1) fallen immens große Datenmengen von mehreren Gigabyte (GB) oder sogar Terabyte (TB) pro Versuchseinheit an. Mit Abschluss der Datenerfassung ist der übergeordnete Block „Biologie & Datenakquise“ abgeschlossen und alle Versuchsparameter sind bestimmt. In Form des akquirierten Bildstroms steht nun eine Messung des Nutzsignals zur Verfügung. Dem Nutzsignal jeder Versuchseinheit einer Klasse bzw. einer Trefferfunktion zuzuordnen, ist Aufgabe des übergeordneten Blocks „Analyse & Interpretation“, welcher sich wiederum weiter in die Schritte „Datenverarbeitung“ und „Evaluation“ unterteilen lässt.
Die Datenverarbeitung trennt das Nutzsignal von unwichtigen Informationen, d.h. von der Hintergrundinformation. Sie extrahiert Merkmale, welche schließlich der Klassifikation zugeführt werden. Der Prozess schließt die Bildverarbeitung mit ein und wird in der vorliegenden Arbeit detailliert betrachtet (vgl. Kapitel 2). Das Ergebnis der Klassen- oder Trefferzuordnung wird in möglichst übersichtlicher Form dargestellt, sodass biologische Schlüsse gezogen werden können. Dies geschieht im Block „Evaluation“. Aus der automatischen Klassifikation muss der Biologe manuell eine Schlussfolgerung ziehen. Hierbei ist eine übersichtliche Präsentation der Versuchsergebnisse hilfreich. Die anhand der Präsentation getroffene Deutung des Biologen soll die Fragestellung der Hochdurchsatz-Untersuchung beantworten. In den Vorversuchen muss nach der ersten Evaluation anhand der vorläufigen Ergebnisse abgewogen werden, ob die Qualität der Ergebnisse ausreichend ist, um den Versuch auf die finale Größe zu skalieren, d.h. ob mit dem gewählten Verfahren die gewünschten Daten aussagekräftig abgebildet werden können und ob das gesuchte Nutzsignal in den Daten stark genug vorhanden ist. Ist dies der Fall, wird mit der tatsächlichen Durchführung des vollständigen Versuchs begonnen.
Mit dem dargestellten Konzept steht nun eine einheitliche Vorgehensweise und Schnittstelle für die Versuchsauswertung zur Verfügung.
3 Anforderungen an bildbasierte Hochdurchsatz-Untersuchungen
Die Hochdurchsatz-Untersuchungen müssen vielschichtigen Anforderungen gerecht werden. Die Anforderungen werden hier in strukturierter Form herausgearbeitet. Anforderungen sind je nach Versuchsvorgaben quantitativ (z.B. Anzahl der zu untersuchenden Substanzen) oder qualitativ (z.B. Sichtbarkeit des biologischen Effekts). Während für quantitative Anforderungen klare Angaben gemacht werden können, lassen sich für qualitative Anforderungen keine genau messbaren Grenzwerte angeben, da z.B. stets ein möglichst gut sichtbarer biologischer Effekt oder eine geringe Fehlerrate anzustreben sind.
Für Hochdurchsatz-Untersuchungen lassen sich Ziele und Vorgaben allgemein bzw. in Abhängigkeit des konkreten biologischen Versuchs formulieren. Der Versuch spielt hierbei für die Anzahl bzw. Komplexität der Anforderungen die maßgebende Rolle, daher sind nicht immer alle Anforderungen für den Einzelfall unbedingt erforderlich. Um den erreichbaren Durchsatz sicherzustellen, ist die Automatisierbarkeit aller notwendigen Versuchsschritte übergeordnet. Zusätzlich wurden in der vorliegenden Arbeit folgende Anforderungen für Hochdurchsatz-Untersuchungen identifiziert:
Durchführung
- •
Legitimität
Die Untersuchung muss den gesetzlichen Vorschriften sowie den ethischen Prinzipien der jeweiligen Forschungseinrichtung entsprechen. Es sind beispielsweise Vorgaben zur Genmanipulation, dem Umgang mit toxikologischen Substanzen und Tierversuchen zu beachten.
- •
Logistische Machbarkeit
Da es sich bei den Versuchen mit Modellorganismen um sich entwickelnde und damit veränderliche Proben handelt, müssen vergleichbare Daten auch zu vergleichbaren Entwicklungs-Zeitpunkten aufgenommen werden. Die Forderung ist von logistischer und biologischer Bedeutung, da für einen gewünschten Durchsatz der entsprechende Nachschub an Fischeiern gegeben sein muss. Die meisten Arbeitsschritte müssen weitgehend parallel erfolgen. Da die Eier jedoch immer zu einem bestimmten Zeitpunkt, dem Sonnenaufgang, gelegt werden und somit die Entwicklung immer gleich startet, ist das Zeitfenster für die Bildakquise vergleichbarer Daten an einem Tag klein.
- •
Biologische Realisierbarkeit
Die zu untersuchende Fragestellung muss sich am Zebrabärbling bzw. dem gewählten Modellorganismus durchführen lassen.
- •
Reproduzierbarkeit
Ein erneutes Durchführen identischer Versuche muss zum qualitativ gleichen Ergebnis führen.
- •
Finanzielle Realisierbarkeit
Durch die hohe Anzahl an Einzeluntersuchungen entstehen hohe laufende Kosten für die Verbrauchsmaterialien und für die zu untersuchenden Substanzen. Hinzu kommen Kosten für z.T. hochauflösende Mikroskope, robotergestützte Automatisierungstechniken und Computertechnik zur Bildverarbeitung sowie Archivierung. In der Summe übersteigen solche Kosten schnell das Budget kleinerer Forschungseinrichtungen. 2. 2.
Messung
- •
Eindeutige Präsenz der biologisch relevanten Information
Die grundlegende Forderung der eindeutigen Präsenz ist bei vielen Versuchen nicht erfüllt. So können Biologen oftmals aus Erfahrung und anhand von kleinen Hinweisen Dinge (etwa biologische Gewebe, Phänotypen etc.) in Organismen erkennen, welche für eine weniger geübte Person und auch für die automatische Datenverarbeitung in den Daten nicht zu identifizieren sind. In einem solchen Fall ist mit automatischen Verfahren keine robuste Auswertung möglich.
- •
Rückwirkungsfreiheit der Messung
Die Akquise darf die Ergebnisse nicht wesentlich beeinflussen. Manche Akquise-Techniken erfordern beispielsweise sehr lichtstarke Beleuchtungen oder bei der konfokalen Mikroskopie sogar Laser zur Akquise der Daten. Biologische Proben können z.B. bei Verhaltensuntersuchungen auf Licht reagieren oder fluoreszierende Marker können durch starke Beleuchtung ausgeblichen werden. Daher muss vor Beginn der Untersuchung der Einfluss der Akquise-Methode auf das Nutzsignal berücksichtigt werden.
- •
Schnelligkeit der Messung
Die Akquise muss in adäquater Zeit erfolgen. Da aus den o.g. logistischen Einschränkungen der Durchsatz deutlich unter der theoretischen Kapazität automatischer Mikroskope liegt, muss geprüft werden, ob die Fragestellung auch in der gewünschten Zeit realisierbar ist. Die Realisierbarkeit ist abhängig von den zur Verfügung stehenden menschlichen und technischen Ressourcen. 3. 3.
Auswertung
- •
Segmentierbarkeit des biologischen Effekts im Bild
Der biologische Effekt muss nach der Messung klar in den aufgezeichneten Bildern oder dem aufgezeichneten Bildstrom vorhanden sein, sodass eine Segmentierung, d.h. Abgrenzung des biologischen Effekts von anderen Bildinhalten, möglich ist.
- •
Quantifizierbarkeit des biologischen Effekts im Bild
Der biologische Effekt kann beispielsweise ein Phänotyp sein, welcher nur selten unter Tausenden von Untersuchungen vorkommt, oder eine Statistik, die aus einer hohen Stückzahl an Bildern extrahiert wird. Das Nutzsignal muss sich durch Zahlenwerte, die aus den Bildern ermittelt werden, repräsentieren lassen, d.h. die Bildauswertung muss die relevanten Informationen extrahieren und die Merkmalsextraktion der Bildauswertung muss so konzipiert sein, dass sich das biologische Nutzsignal aus den Merkmalen klassifizieren lässt. Auch in der großen Anzahl an Einzeluntersuchungen müssen selten vorkommende Ereignisse erkennbar sein und auch erkannt werden.
- •
Niedrige Fehlerrate bei der Detektion des biologischen Effekts
Die Bildauswertung muss robust sein, d.h. Fehlklassifikationen durch Bildfehler aus Akquise, Präparation, Robotik etc. sollen ebenso wie ein kritischer Abbruch der Bildverarbeitungsroutine vermieden werden.
- •
Schnelligkeit der Auswertung
Die Bildauswertung muss in adäquater Zeit erfolgen, da je nach biologischer Fragestellung u.U. Echtzeitfähigkeit gefordert werden muss. Zumeist ist jedoch eine Rechenzeit von einigen Minuten pro Einzelexperiment vertretbar, solange das Gesamtexperiment in einem angemessenen Zeitraum (üblicherweise zwischen einigen Stunden und Wochen) auswertbar ist.
- •
Präsentierbarkeit der Auswertung
Die Ergebnisse müssen nach der Durchführung und Auswertung der Hochdurchsatz-Untersuchung dargestellt werden. Die hohe Anzahl von Einzeluntersuchungen macht eine übersichtliche Art und Weise der Darstellung notwendig. Die Klassifikationsergebnisse und die ggf. identifizierten Treffer (selten vorkommende Ereignisse, auf welche die Hochdurchsatz-Untersuchung ausgerichtet sein kann) müssen visualisiert werden und den Versuch in übersichtlicher Weise darstellen, sodass von Biologen weitere Schlüsse gezogen werden können.
- •
Wissenschaftliche Archivierung
Um die Reproduzierbarkeit zu sichern, müssen alle Versuche inkl. Versuchsparameter, akquirierten Bildern, verwendeter Software, deren Version und der Visualisierung archiviert werden. Die Archivierung schließt sowohl die Bildverarbeitungsroutine als auch den Zugriff auf alle Auswertungs- und Visualisierungsroutinen ein. Bei mehrdimensionalen Untersuchungen im Hochdurchsatz fallen sehr hohe Datenmengen an. Die Daten müssen bei den meisten biologischen Untersuchungen für mindestens 10 Jahre archiviert werden [166]. Die zur Verfügung stehende Archivierungseinrichtung muss daher der Datenmenge und Dauer der Archivierung entsprechend ausgelegt sein.
4 Identifikation der Versuchs- und Auswerteparameter
Zur konkreten Anwendung des im vorangegangenen Abschnitt eingeführten Konzeptes müssen in allen Prozessschritten (vgl. Abb. 2) Entscheidungen getroffen werden, durch die Versuchs- und Auswerteparameter bestimmt werden. Die Versuchsparameter bilden zusammen mit der Anweisung zur praktischen Durchführung aus der statistischen Versuchsplanung den Versuchsplan der Hochdurchsatz-Untersuchung. Der folgende Abschnitt leistet einen Beitrag zur Entscheidungsfindung für die technische Durchführung und zeigt wichtige Eigenschaften und gegenseitige Abhängigkeiten zwischen den einzelnen Versuchsparametern und Entscheidungen auf. Die gewählten Optionen haben unmittelbare Auswirkungen auf die Aussagen und den Durchsatz, der mittels einer Hochdurchsatz-Untersuchung erzielt werden kann. Zum Teil stehen für ein beabsichtigtes Ergebnis bzw. eine bestimmte biologische Fragestellung und somit ein gewünschtes Nutzsignal eine Reihe an Entscheidungen aus Gründen der Realisierbarkeit bereits fest. Als einführendes Beispiel sei ein Zelltracking einer einzelnen Zelle angeführt. Eine solche Aufgabenstellung ist in einer Hellfeld-Aufnahme schwer realisierbar, da die Nutzsignalinformation (die Zelle von Interesse) schwer von benachbarten Zellen zu unterscheiden ist. Hier bietet sich das Markieren der Zellkerne durch fluoreszierende Proteine an, da sich diese, bei Anregung mit der entsprechenden Wellenlänge separat, ohne Auftreten der nicht markierten Zellen, aufzeichnen lassen. Ein auf morphologischen Formen basierendes Nutzsignal ist dagegen nur mit Hellfeld-Aufnahmen abbildbar. Die beiden Beispiele zeigen die Notwendigkeit auf, die Akquise-Methode so zu wählen, dass das Nutzsignal abgebildet wird. Im Folgenden werden Vor- und Nachteile der Entscheidungsmöglichkeiten diskutiert und anhand von Beispielen die Folgen verdeutlicht. Manche der Entscheidungen schließen sich im Übrigen nicht aus, sondern es können auch zwei oder mehrere Entscheidungen gleichzeitig getroffen werden (im vorigen Beispiel das gleichzeitige Aufzeichnen von Hellfeld- und Fluoreszenzaufnahmen und die spätere Zuordnung zu biologischen Signalen). Ein solches Vorgehen ist für biologische Fragestellungen zum Teil sogar unmittelbar erforderlich und hat erheblichen Einfluss auf den für die Bildakquise bzw. Bildauswertung notwendigen Aufwand und die zu akquirierende Datenmenge.
In Abb. 3 ist eine Übersicht der wichtigsten Entscheidungsmöglichkeiten zur Bestimmung der Versuchsparameter dargestellt. Die Übersicht ist nach dem Schema des Konzeptes aus Abschnitt 2 gegliedert und die bereits eingeführten, übergeordneten Blöcke „Biologie & Bildakquise“ sowie „Analyse & Interpretation“ lassen sich abgrenzen.
1 Biologie und Bildakquise
Im Biologie- und Bildakquiseteil müssen die Versuchsparameter bestimmt werden. Für eine gute Qualität bei der Datenerfassung bietet es sich an, während der Versuchsvorbereitung die Larven zu präparieren. Der Aufwand für das Präparieren fällt unterschiedlich hoch aus, ist jedoch in fast allen Fällen manuell durchzuführen, limitiert somit den Durchsatz und setzt ein entsprechendes Personal voraus. Die wichtigsten Präparationsschritte sind das Dechorionieren, das Vereinzeln, das Ausrichten und das Betäuben der Larven. Das Dechorionieren ist das Befreien der Larven von der umschließenden Fruchthülle (dem sog. Chorion). Dabei wird die Fruchthülle entweder mit einer Pinzette manuell entfernt oder mittels einer Chemikalie aufgelöst. Bei Verwendung der Chemikalie lassen sich viele Larven gleichzeitig dechorionieren. Abb. 4 stellt einer Larve im Chorion eine dechorionierte Larve gegenüber.
Der Vorteil der Präparation ist, dass sich die Larven nach dem Dechorionieren ausstrecken und hierdurch alle seitlich sichtbaren Bereiche akquirierbar sind. Bis zu einem Alter von 72 hpf111hpf = hours past fertilization = Stunden nach der Befruchtung liegt die Larve zudem definiert entweder in lateraler oder dorsaler Lage222Zu einem späteren Zeitpunkt richtet sich die Larve auf, da sich die Schwimmblase entfaltet hat [177].. Durch die runde Form des Dottersacks kann die Larve allerdings leicht in eine beliebige Richtung gekippt sein, was zur Folge hat, dass die absolute Höhe von Bereichen im Fisch variiert. Da es technisch nicht möglich ist, die gesamte Larve, auch in der Tiefe, mit einer Aufnahme scharf abzubilden, müssen auch dechorionierte Larven in mehreren Fokusebenen akquiriert werden. Für die Bildauswertung ist die definierte seitliche Position allerdings von großem Vorteil, da sich ein Koordinatensystem definieren lässt und geometrische Beziehungen zum Auffinden von Bereichen im Fisch ableitbar sind [49], d.h. die Larven müssen lediglich um die dritte Achse rotiert und ggf. gespiegelt werden, um eine vergleichbare Position zu erhalten (vgl. Abb. 4). Den genannten Vorteilen steht der große zeitliche Aufwand für die Entfernung des Chorions und für das Ausrichten auf der Seite gegenüber. Dies gilt im Besonderen, wenn auf die Dechorionierung mittels Chemikalien aufgrund von möglichen wechselseitigen Abhängigkeiten zwischen den Substanzen, die bei dem Versuch zum Einsatz kommen, verzichtet und somit das Dechorionieren für jede Larve einzeln und manuell durchgeführt werden muss. Zudem ist die Vereinzelung von dechorionierten Zebrabärblingen schwieriger, da die Larven bereits „stromlinienförmig“ sind und das exakte Pipettieren und vor allem dessen Automatisierung vor Probleme stellt.
Die Vorteile der Zebrabärblingslarven im Chorion sind u.a. die leichtere Automatisierbarkeit sowie die kurze Präparationszeit. Bis eine robuste robotergestützte Lösung für die o.g. Präparation entwickelt ist, kann für Hochdurchsatz-Untersuchungen lediglich die Larve im Chorion empfohlen werden, denn bei manueller Präparation lässt sich der geforderte Durchsatz von mehreren tausend Einzelversuchen pro Tag nicht erreichen, was für die Bildverarbeitung jedoch den Nachteil, dass die Larven im Chorion frei beweglich sind. Somit ist deren Lage auf den akquirierten Bildern äußerst unterschiedlich. Als Vorteil der Zebrabärblingslarve als Modellorganismus wird zwar vor allem Transparenz angeführt, was jedoch nicht bedeutet, dass alle Seiten der Larve gleich gut auf dem Bild sichtbar sind. Selbst kontraststarke Bereiche wie das Auge sind, wenn sie verdeckt auftreten, zwar durch die Larve hindurch noch zu erahnen, die Konturen werden von den darüber liegenden Körperteilen (z.B. Kopf oder Dottersack) jedoch stark verwischt oder abgeschwächt. Je nach Lage der Larve sind somit verschiedene Details im Zebrabärbling mit Chorion nicht oder nur schwer zu erkennen. Damit lassen sich hier lediglich von der Lage unabhängige Nutzsignale untersuchen.
Die letzte der hier aufgezeigten Präparationsmöglichkeiten ist das Betäuben der Zebrabärblingslarven. Ab ca. 24 hpf beginnen die Larven, sich spontan in ihrer Eihülle zu bewegen. Die Häufigkeit dieser spontanen Bewegungen schwankt während der Entwicklung der Larve. Im Mittel kann jedoch alle drei Sekunden eine Bewegung beobachtet werden, was zur Folge hat, dass, wenn die Bewegung während der Bildakquise auftritt, verwaschene Konturen in der Mikroskopaufnahme erscheinen. Solche Aufnahmen sind meist für die weitere Auswertung unbrauchbar. Bei Aufnahmetechniken wie etwa der Konfokal-Mikroskopie oder SPIM sind lange Belichtungszeiten pro Aufnahme ohne Bewegung erforderlich. Soll über eine längere Zeit eine Zuordnung von Bereichen in der Larve möglich sein, müssen solche Bewegungen unterbunden werden. Dies kann durch ein Betäubungsmittel, z.B. Trikaine, erreicht werden, hat allerdings einen manuellen Präparationsschritt mit o.g. Nachteilen zur Folge. Auch kann ein Zusammenwirken des Anästhetikums mit den Substanzen, deren Einfluss bestimmt werden soll, auftreten. Daher muss bei der Versuchsauslegung geprüft werden, ob die Verwendung von Betäubungsmitteln vertretbar ist. Eine alternative Möglichkeit zum Demobilisieren der Larven ist es, die Larven kurz vor der Bildakquise mit Hilfe von kaltem Wasser zu kühlen [185].
Nachdem nach Abb. 3 eventuelle manuelle Präparationsschritte gewählt wurden und die Larven in definierter Anzahl (üblicherweise 1-10) in Mikrotiterplatten platziert und ggf. mit Chemikalien exponiert sind, muss nun für das Nutzsignal eine geeignete Akquise-Technik gewählt werden (vgl. Abschnitt 2). Für jede Zebrabärblingslarve wird nun eine Messung mittels Detektoren erfolgen. Unabhängig von den gewählten Akquise-Techniken wird bei den aufgezeichneten Daten immer von einem Bildstrom gesprochen. Je nach Protokoll der Aufzeichnung handelt es sich bei den Daten um ein einzelnes Bild, eine Bildsequenz, oder mehrere Bildsequenzen innerhalb einer längeren Zeitspanne. Es müssen also, ebenfalls unabhängig von der gewählten Akquise-Technik und angepasst an das Nutzsignal, die Aufnahmezeitpunkte und deren Frequenz festgelegt werden. Dafür muss geklärt werden, ob die Nutzsignalinformation nur selten auftritt, unter bestimmten Voraussetzungen erkennbar ist oder durch geeignete Mittel provoziert werden kann. Dies hat direkten Einfluss auf Anzahl der Wiederholungen sowie Dauer und Frequenz der Akquise pro Einzelversuch. Im einfachsten Fall ist der Zeitpunkt der Akquise bzw. das Zeitfenster für vergleichbare Ergebnisse groß (mehrere Stunden bis Tage) und der Effekt immer sichtbar. Ist das nicht der Fall, z.B. wenn ein Entwicklungsvorgang der Larven oder von Zellen untersucht wird, so sind Bildsequenzen vonnöten, deren Abtastraten an die Entwicklungsgeschwindigkeit anzupassen sind. Die steigende Akquise-Zeit der Einzelversuche hat Leerlaufzeiten bzw. Wartezeiten der Mikroskope zur Folge. Solche Zeiten des Stillstandes schränken die erreichbare Anzahl an Einzeluntersuchungen pro Tag ein, da die Mikroskope länger durch die Bildakquise je Einzelversuch blockiert werden und durch die geforderte Vergleichbarkeit der Einzelversuche und die schnelle Entwicklung der Larven nur ein kleines Zeitfenster zur Akquise existiert. Die Auftrittshäufigkeit hat daher überproportionalen Einfluss auf den erreichbaren Durchsatz.
Bei der Datenerfassung hat die Wahl der Akquise-Technik, wie z.B. die Präparation, unterschiedliche, weitreichende Auswirkungen auf die Bildauswertung. Entsprechend Abb. 3 bieten sich verschiedene Optionen, welche die Modalität des Bildstroms bestimmen. Die Akquise-Methode ist dem Auftreten des Nutzsignals anzupassen. Es muss in jedem Fall sichergestellt werden, dass der Bildstrom das Nutzsignal und damit die Nutzsignalinformation abbildet.
Ist die auszuwertende Beobachtung beispielsweise in Hellfeld-Aufnahmen und in Gewebeflächen der Larve zu finden, so ist eine einzelne Mikroskopaufnahme bereits ausreichend, um die weiteren Schritte erfolgreich abzuschließen. Ist die Aufnahme ein Grauwertbild, so bleibt die vom Detektor aufgezeichnete Matrix zweidimensional. Für Farbbilder sind bereits drei Kanäle (für rot, grün und blau) aufzuzeichnen. Tritt der biologische Effekt lediglich unter Verwendung von Fluoreszenzmikroskopie in Erscheinung, so kann ebenfalls ein zweidimensionales Bild akquiriert werden. Oft ist jedoch die Zuordnung des fluoreszierenden Bereichs im Hellfeld-Kanal gewünscht, was die Dimension der Akquise mindestens um einen Grad erhöht. Zu Beginn der Akquise der Hochdurchsatz-Untersuchung werden somit Modalität bzw. die Anzahl der Kanäle des Bildstroms festgelegt. Hierbei stehen die in der Einleitung (Abschnitt 2) beschriebenen Möglichkeiten zur Verfügung.
Für eine Hochdurchsatz-Untersuchung bieten sich in erster Linie Hellfeld-Aufnahmen an, da solche traditionell der Standard in der Mikroskopie und daher weit verbreitet sind. Des Weiteren steht eine große Auswahl an (teil)automatisierten Mikroskopen zur Verfügung. Sie können zur oberflächlichen Abbildung fast aller Objekte verwendet werden. Es lassen sich der Zebrabärbling als Ganzes oder auch Bereiche, wie z.B. dessen einsehbare Organe akquirieren. Eine besondere Schwierigkeit ist das (automatische) Auffinden der Fokusebene, welche das Nutzsignal optimal abbildet. Die optimale Schärfe der Zebrabärblingslarven im Chorion ist unter mehreren Gesichtspunkten schwierig zu ermitteln. Für jedes Mikroskop kann der scharf abgebildete Bereich, die sog. Schärfentiefe, aufgrund der physikalischen Gegebenheiten (Auflösung/Numerische Apertur) errechnet werden. Bei hinreichend ebenen Objekten wird daher der gesamte Bereich scharf abgebildet. Da das Chorion jedoch eine relativ große Ausdehnung in der Tiefe hat, lässt sich in jeder Fokusebene nur ein kleiner Teil scharf darstellen. Zwar können z.B. immer die Mitte oder der obere Bereich scharf fokussiert werden, da die Lage der Larven jedoch variiert, ist immer ein anderer morphologischer Bereich der Larve scharf abgebildet. Um das Nutzsignal später vergleichen zu können, muss es jedoch auch möglichst gleich akquiriert sein. Werden nun verschiedene z-Ebenen aufgenommen, sog. Stacks, muss dasjenige ausgewählt werden, welches die interessierende Region möglichst scharf wiedergibt. Eine Vergrößerung der Anzahl an Fokusebenen ergibt jedoch nur so lange Sinn, wie die Summe der Schärfentiefen in den Bildern nicht den Durchmesser des Chorions des Zebrabärblings überschreitet. Je nach Genauigkeit und Abgrenzbarkeit des Nutzsignals in der Larve muss somit die Anzahl der Fokusebenen festgelegt werden. Es entsteht eine sog. 2.5-dimensionale Aufnahme. Die Modalität ist hierbei Eins (bzw. Drei für Farbaufnahmen) und die Daten sind dreidimensional. Werden Entwicklungsverläufe oder Bewegungsmuster der Zebrabärblinge ausgewertet, müssen eine oder mehrere Bildsequenzen aufgezeichnet werden. Für jeden weiteren Abtastzeitpunkt multipliziert sich die Größe des Bildstroms.
Wird die Fluoreszenzmikroskopie angewandt, lassen sich für eine Hochdurchsatz-Untersuchung die Intensitätswerte eines mittels Markers im Zebrabärbling gekennzeichneten Bereichs akquirieren. Bei der Fluoreszenzmikroskopie ist die Selektivität der Aufzeichnung gleichzeitig Vor- und Nachteil. Ist die Nutzsignalinformation markiert, wird bei der Fluoreszenzmikroskopie lediglich die Nutzsignalinformation akquiriert. Dies hat für die Bildverarbeitung den Vorteil, dass die Region von Interesse nicht vom Hintergrund getrennt werden muss und auch vorliegt, wenn dessen Quelle im Inneren des Zebrabärblings liegen sollte. Der Nachteil jedoch ist, dass in den akquirierten Daten keinerlei Information über die Position der Daten relativ zum Zebrabärbling enthalten ist. Sind beispielsweise nur wenige Zellen markiert, enthält der Bildstrom keine Informationen, ob die Zellen z.B. aus dem Kopf oder dem Rücken stammen. Bildsequenzen lassen sich mit der Konfokal-Mikroskopie nur mit relativ niedrigen Abtastfrequenzen und langen Aufnahmezeiten realisieren. Daher ist eine Betäubung der Larven erforderlich. Um die Fluoreszenzkanäle dennoch einem Bereich im Zebrabärbling zuordnen zu können, besteht die Möglichkeit, sowohl Fluoreszenz- als auch Hellfeld-Aufnahmen von der gleichen Larve zum möglichst gleichen Zeitpunkt unter möglichst gleichen Bedingungen zu akquirieren.
Erweitern lassen sich die Multikanalaufnahmen durch das Hinzufügen weiterer Fluoreszenzkanäle, da bei einer Hochdurchsatz-Untersuchung mehrere Zellen unterschiedlich markiert sein können. Dies können sowohl Autofluoreszenzkanäle als auch markierte Kanäle unterschiedlicher Emissionswellenlängen sein. Je akquirierter Fluoreszenzwellenlänge ist ein gesonderter Kanal aufzuzeichnen und für eine Hellfeld-Aufnahme ein weiterer (bzw. drei für Farbaufnahmen). Bei der Akquise solcher Multikanalaufnahmen entstehen somit schnell große Datenmengen, da sich hier die Datenmenge zusätzlich zu den Abtastzeitpunkten nochmals mit der Kanalanzahl multipliziert. Es sei darauf hingewiesen, dass sich Zellen biologisch oft nicht sofort markieren lassen. Sog. transgene Linien, die sich für diesen Zweck eignen, müssen erst gezüchtet werden. Das Züchten führt zu einer Wartezeit eines oder mehrerer voller Generationszyklen der Fische. Zudem muss beachtet werden, dass für eine Hochdurchsatz-Untersuchung eine entsprechend große Population der transgenen Linie vorhanden sein muss, um den Nachschub an Eiern pro Tag zu gewährleisten, was zu weiteren Wartezeiten führen kann.
Bei der 3. Dimension kann entweder die Hinzunahme der Zeit oder die geometrische Ausdehnung in Richtung der z-Achse gemeint sein. Zur Vermeidung von Missverständnissen werden in der vorliegenden Arbeit nur räumliche Bildströme von Zebrabärblingslarven als dreidimensional bezeichnet, ansonsten wird von Abtastzeitpunkten gesprochen. Wie bei den 2.5-dimensionalen Aufnahmen erweitert sich der Bildstrom bezüglich der -Achse und alle Pixel werden zu Voxeln. Allerdings ist bei solchen Daten im Gegensatz zu 2.5-dimensionalen Bildströmen eine Volumeninformation gegeben, da die verdeckt liegenden Bereiche im Fisch ebenfalls abgebildet werden können. Es steigen jedoch die Anforderungen an die Computer-Hardware sowohl durch den größeren Speicherplatzbedarf als auch in der Auswertung, da die Volumenbilder meist als Ganzes in den Arbeitsspeicher geladen werden müssen.
Die größten Bildströme entstehen bei der Kombination von Multikanalaufnahmen mit dreidimensionalen Aufnahmen. Solche n-dimensionalen Datensätze lassen sich mit dem sog. SPIM Mikroskop aufzeichnen (vgl. Abschnitt 2). Für die Hochdurchsatz-Untersuchung bleibt die Verarbeitung hoch-dimensionaler Bilddaten jedoch zum Zeitpunkt des Entstehens der vorliegenden Arbeit nur eine theoretische Möglichkeit, da sowohl die Datenakquise, die Rechenleistung und die Speicherkapazitäten solche Datensätze für den Hochdurchsatz ausschließen.
Einen Kompromiss bietet CAM (Computer Aided Microscopy) [130]. Mittels der CAM-Technologie wird ein Übersichtsbild oder ein dreidimensionales Bild in niedriger Auflösung aufgenommen, live ausgewertet und lediglich der Bereich von Interesse akquiriert, beispielsweise mit Hilfe eines Zoomobjektives. Der in sehr hoher Auflösung und ggf. Multikanaltechnik akquirierte Bereich beschränkt sich hierbei möglichst lediglich auf den Bereich im Zebrabärbling, der die Nutzsignalinformation trägt.
2 Analyse und Interpretation
Bei der Analyse und Interpretation (vgl. weiterhin Abb. 3) müssen nach der Bildstrom-Vorverarbeitung die Art des biologischen Effekts von Interesse (das Nutzsignal) und die darin enthaltene Information (die Nutzsignalinformation) bestimmt werden. Eine typische Nutzsignalinformation sind entweder eine charakteristische Form oder Fläche eine Bereichs im Zebrabärbling oder auch des gesamten Modellorganismus, die biologische Effektstärke, die Bewegung oder die Veränderung einer der zuvor genannten Nutzsignalinformationen über die Zeit.
Die in der Segmentierung gefundenen Bereiche müssen bezüglich des Nutzsignals quantifiziert werden. Je nach Nutzsignal können entweder Merkmale, nach einer Bildvorverarbeitung wie z.B. Verbesserungen des Kontrastes (vgl. Abschnitt 2), direkt extrahiert werden oder es müssen erst Zeitreihen ermittelt und die Zeitreihen weiter zu Merkmalen reduziert werden. Hierbei handelt es sich also um Fischinformationszeitreihen und -merkmale oder einfacher Nutzinformationszeitreihen und -merkmale. In Momentaufnahmen wird oft ein Bild in einem Zwischenschritt durch die Segmentierung erzeugt. Solche Bilder enthalten nach Möglichkeit lediglich das Nutzsignal, dessen Information sich durch formbeschreibende Werte quantifizieren lässt und damit Aufschluss über die charakteristischen Bereiche, d.h. der Nutzsignalinformation des Zebrabärblings, gibt. Typische solcher Merkmale sind z.B. die Größe, die Rundheit, der Umfang des Bereichs oder die lange/kurze Halbachse einer umschließenden Ellipse. Die biologische Effektstärke zeigt sich in der Signalstärke im Bild. Das Merkmal der Effektstärke wird vornehmlich bei Fluoreszenzaufnahmen eingesetzt. Die vom Detektor aufgezeichneten Lichtintensitätswerte entsprechen hier der Signalstärke eines bestimmten Bereichs und sind das direkte Maß für die Stärke des biologischen Effekts. Bewegungen lassen sich gut in Bildsequenzen detektieren, von Interesse sind hierbei die Häufigkeit einer Bewegung oder Bewegungsmuster. Quantifiziert werden Bewegungsmuster meist über die Veränderung von Pixelwerten über der Zeit. In Bildsequenzen besteht zusätzlich die Möglichkeit, alle zuvor genannten Merkmale an unterschiedlichen Zeitpunkten zu bestimmen. Die so entstehenden Zeitreihen lassen eine Bewertung der Veränderung über die Zeit zu. Beispielsweise kann die Veränderung der Größe des Dottersacks während der Entwicklung ein solches Maß sein.
Alle extrahierten Merkmale repräsentieren die Nutzsignalinformation und können nun weiter verarbeitet werden. Ziel ist es, die Merkmale der zugehörigen Ausgangsklasse zuzuweisen. Zu Beginn wird der Einfluss von Störfaktoren mittels einer Normierung versucht zu beseitigen. Daraufhin werden möglichst aussagekräftige Merkmale extrahiert und die trennungsstärksten in einer Merkmalsauswahl identifiziert. Für die Identifikation sowie für die spätere Klassifikation ist ein Lerndatensatz erforderlich. Hierfür wird ein Teil der Daten manuell anhand der Bilddaten der entsprechenden Klasse zugeordnet. Mittels der gefundenen signifikanten Merkmale und des Lerndatensatzes wird daraufhin ein Klassifikator angelernt und die Klassenzugehörigkeit der restlichen, nicht manuell zugeordneten Daten geschätzt. Aus den Klassenzugehörigkeiten lassen sich dann in einer Auswertung (vgl. weiter Abb. 3) charakteristische bzw. biologisch oder toxikologisch wichtige Kurven und Werte berechnen und interpretieren. Bei einer toxikologischen Untersuchung kann z.B. eine Dosis-Effekt-Kurve dargestellt werden. Dabei wird die geschätzte Klassenzugehörigkeit jeder Einzeluntersuchung gegenüber der Dosis einer Chemikalie aufgetragen. Aus dieser Kurve lassen sich dann charakteristische Werte wie z.B. die höchste Konzentration, bei der kein Effekt auftritt (NOEL; engl. No Observed Effect Level), berechnen. Ein weiterer typischer Wert ist die Konzentration, bei der die Hälfte aller Versuchseinheiten nicht überlebensfähig ist (EC50; engl. Effect Concentration 50).
Bei der Evaluation muss ein Biologe die präsentierten Daten entsprechend interpretieren. Die Deutung geschieht fast ausschließlich manuell. Für bekannte Effekte lässt sich jedoch eine Plausibilitätsprüfung oder eine automatisierte Gegenprobe einführen, welche eine Sicherheit gegenüber Fehlauswertungen bietet. Die Ergebnisse müssen schließlich archiviert werden, um zu einem späteren Zeitpunkt eine Reproduktion der Ergebnisse zu ermöglichen.
3 Einfluss der Versuchsparameter auf die Bildqualität
Die für Hochdurchsatz-Untersuchungen geforderten Parameter wie z.B. möglichst kurze Gesamtzeit der Versuchsdurchführung haben zur Folge, dass die Bildakquise automatisiert durchgeführt werden muss. Hierfür finden die im vorigen Abschnitt erwähnten speziellen Hochdurchsatz-Mikroskope Anwendung. Die schnelle Akquise führt jedoch leicht zu Inhomogenitäten in den Bildströmen, da die Aufnahmen ohne menschliche Überwachung oder Korrektur durchgeführt werden. Solche Inhomogenitäten beeinflussen die Bildqualität und -information. Die Bildverarbeitung und Klassifikation muss entsprechend abgestimmt werden [75, 142]. Zur Betrachtung der Auswirkungen auf die Bildauswertung lassen sich die Inhomogenitäten in zwei Bereiche einteilen:
Inhomogenität der Qualität durch Fehler bei der Mikroskopie und 2. 2.
Inhomogenität der Information durch fehlerhafte Objekte.
Die Qualität bezieht sich hierbei auf die Güte der Bilder bezüglich Schärfe, Beleuchtung und Reinheit, während mit Information der Inhalt der Bilder gemeint ist, also inwieweit die Akquise den biologischen Effekt von Interesse im Zebrabärbling auf dem Bild wiedergibt. Die Information ist die Forderung, dass der Bildstrom die Nutzsignalinformation enthält. Die Akquise-Methode muss also so gewählt werden, dass der biologische Effekt von Interesse im Bildstrom vorhanden ist. Abb. 5 zeigt Beispiele für Beeinträchtigungen, die bei der Bildakquise im Hellfeld entstehen können. In Abb. 5a und Abb. 5b stellt sich der automatische Fokus des Mikroskops auf Schmutz in der Flüssigkeit oder auf der Linse scharf. Dadurch sind die Larven nur undeutlich zu erkennen. In Abb. 5c und Abb. 5d sind die Larven von Schmutz umgeben und teilweise überdeckt. In Abb. 5e und Abb. 5f schließlich treten große Fremdkörper in den Bildern auf, die zum Teil sogar die Kontur um die Eihülle unterbrechen.
Die Qualität des Bildstroms lässt sich maßgeblich durch Sorgfalt bei der Bildakquise und Präparation verbessern. So werden z.B. sämtliche Verunreinigungen, die sich auf dem Objektiv, in der Luft oder im Wasser um die Larven befinden, mit aufgezeichnet und verdecken oder verschlechtern Informationen und damit die Qualität aller weiteren Schritte der Auswertung und können im schlimmsten Fall zu einer Fehlklassifikation führen. Je konstanter die Umgebungsbedingungen wie z.B. die Raumbeleuchtung sind, desto konstanter ist auch die Qualität des Bildstroms. Ebenso kann der automatische Fokus des Mikroskops sich durch übermäßige Verschmutzungen der Probe falsch justieren, sodass irrelevante Bildteile scharf abgebildet werden. In den im Rahmen der vorliegenden Arbeit betrachteten Bildströmen erwiesen sich Schmutzpartikel, Bildunschärfe und eine ungleichmäßige Ausleuchtung als die am häufigsten auftretenden qualitativen Einschränkungen.
Oft sind die Aufnahmen zwar von guter Qualität bezüglich der Schärfe und der Beleuchtung, jedoch wird die Nutzsignalinformation vom Bildstrom nicht oder nicht komplett wiedergegeben. Larven sind z.B. nicht vollständig auf dem Bild abgelichtet oder auf einem Bild sind mehrere Larven bzw. auch gar keine zu finden (vgl. Abb. 6), obwohl im Versuchsprotokoll genau eine Larve gefordert war. In Abb. 6a ist das Zebrabärblingsei durch mechanische Einwirkung bei der Vereinzelung mit der Pipette oder beim Transport zerstört worden. In Abb. 6b befindet sich neben der Eihülle der lebenden Larve eine weitere, leere Eihülle, die möglicherweise von einer bereits geschlüpften Larve stammt. Abb. 6c bildet nur ca. 1/3 der Larve ab, während in Abb. 6d zwei Larven gleichzeitig bei der Bilderfassung in dem Näpfchen der Mikrotiterplatte waren. In Abb. 6e ist das Zebrabärblingsei nicht befruchtet, es erscheint auf dem Bild als „leerer Ring“. In Abb. 6f schließlich ist ein leeres Näpfchen abgelichtet. Die gezeigten Beispiele können nicht das gesamte Spektrum von Inhomogenitäten abbilden, sollen jedoch die Vielfältigkeit der Fehlerquellen aufzeigen.
Bei Multikanalaufnahmen ist ein weiterer Aspekt die Problematik des zeitlichen Versatzes, welcher zwischen den Aufnahmen der einzelnen Kanäle entsteht. Z.B. nimmt das Mikroskop Olympus-Scan bei mehreren Fokusebenen in einem ersten Durchlauf alle Fokusebenen der Reihe nach auf, beginnend mit den Hellfeld-Aufnahmen. Daraufhin wird das Durchlicht durch eine Blende verschlossen, ein Fluoreszenzfilter automatisch eingesetzt und die entsprechenden Fokusebenen für die Fluoreszenzkanäle akquiriert. Die Bildakquise erfolgt damit nicht simultan [90], was Abweichungen der Bilder zueinander zur Folge hat, da zum einen Toleranzen des Mikroskops den optischen Fluss zwischen beiden Aufnahmeserien verändern und zum anderen sich das Objekt entweder eigenständig (z.B. durch Muskelzucken der Larven) oder durch Störungen bewegt haben kann. Das hat zur Folge, dass gleiche Strukturen im Fisch nicht an der gleichen Stelle im Bild abgebildet werden. Kleine Toleranzen können oder müssen in einem solchen Fall durch eine Registrierung, d.h. eine Zuordnung der einzelnen Kanäle durch Translationen und Rotationen, ausgeglichen werden, während die Registrierung bei großen Toleranzen scheitert oder einen zu großen Aufwand erfordert. Solche Fälle müssen dann ggf. mittels geeigneter Validitätsprüfungen erkannt und ausgeschlossen werden (vgl. Kapitel 2). Ein Beispiel für eine solche Abweichung ist in Abb. 7 gegeben. Während in der linken Abbildung 7a sich der Fluoreszenzkanal mit dem Hellfeldkanal deckt, sind in Abb. 7b die Kanäle nicht deckungsgleich was deutlich am Kopfbereich des Fisches zu sehen ist.
5 Mathematisches Modell der Hochdurchsatz-Untersuchung
Bei der Betrachtung der Hochdurchsatz-Untersuchung ist eine allgemein anwendbare Notation, welche sich auf alle Ausprägungen der Untersuchung adaptieren lässt, hilfreich. Daher wird im folgenden Abschnitt für alle identifizierten Parameter der Hochdurchsatz-Untersuchung eine modellhafte Beschreibung eingeführt, welche sich universell auf Hochdurchsatz-Untersuchungen anpassen lässt und ein einheitliches Beschreibungsmodell darstellt.
Werden die identifizierten Parameter aus Sicht der Eingangsdaten der Bildverarbeitung beschrieben, so kann eine formale Betrachtung vorgenommen werden, aus der sich eine modellhafte Beschreibung ableiten lässt. Der biologische Effekt und somit das Nutzsignal werden charakterisiert durch vier Parameter, die sich ausnahmslos auf die Art oder den Ort beziehen, an dem das Nutzsignal auftritt. Die Parameter sind Auftrittsmodalität, -ort, -häufigkeit und -dauer (vgl. Abb. 8)
Bei der Betrachtung der Hochdurchsatz-Untersuchung muss die Auftrittsmodalität des Signals geklärt und in der Versuchsauslegung berücksichtigt werden. Der Begriff Auftrittsmodalität steht für die verschiedenen Kanäle, mit denen ein Nutzsignal aufgezeichnet werden kann, etwa mittels der Aufzeichnung von Grauwertbildern von einem Hellfeld-Mikroskop und z.B. einem weiteren Fluoreszenz-Kanal. Die Auftrittsmodalität hat daher Einfluss auf die Dimension der Bildakquise. Für den Parameter wird der Bezeichner eingeführt. Ein weiterer Parameter ist der Auftrittsort des Nutzsignals. Der Auftrittsort ist gleichzeitig der Ort bzw. der Raum von Interesse (engl. (ROI) Region of Interest) und durch Indizes definiert, welche die Lage des Raums innerhalb des Nutzsignals beschreiben. Für den Auftrittsort wird eingeführt mit . Die Auftrittshäufigkeit beschreibt, inwieweit das zu beobachtende Nutzsignal ständig sichtbar ist (z.B. ständig oder nur zu einer bestimmten Wahrscheinlichkeit in einem von 1000 Zeitpunkten). Für die Auftrittshäufigkeit wird der Bezeichner eingeführt. Während die Auftrittshäufigkeit des Nutzsignals vornehmlich zu Wartezeiten und niedrigerem Durchsatz führt, wirkt sich die Auftrittsdauer auf die Länge der Bildsequenzen aus, sollte das Nutzsignal über die gesamte Auftrittsdauer beobachtet werden müssen. Für die gewählte Aufnahmedauer des Nutzsignals wird der Bezeichner eingeführt.
Eine konkrete bildbasierte Hochdurchsatz-Untersuchung besteht aus einer Anzahl von divers behandelten Zebrabärblingslarven. Es wird vereinfachend davon ausgegangen, dass eine Larve Träger genau eines biologischen Effekts und damit die Versuchseinheit ist. Die Larven existieren als reale Versuche , d.h. in Form von kontinuierlichen Werten und deren digitaler Abbildung in einem Bildstrom . Die Anzahl an untersuchten Zebrabärblingslarven setzt sich zusammen aus drei Klassen. Die Klasse der Positiv-Kontrollen bestehend aus Versuchseinheiten, die der Negativ-Kontrollen bestehend aus Versuchseinheiten und die Klasse der den Rahmenbedingungen ausgesetzten Proben bestehend aus Versuchseinheiten. Die Anzahl an Zebrabärblingslarven in der Hochdurchsatz-Untersuchung ist dann gegeben durch:
[TABLE]
Die Versuchseinheit wird durch Größen beschrieben, die die Versuchsbedingungen bestimmen. Die Größen werden in Anlehnung an [138] als Faktoren bezeichnet. Es erweist sich als zweckmäßig, Plan- und Störfaktoren zu unterscheiden. Die Planfaktoren beschreiben jene Größen, deren Einfluss durch systematische Variation untersucht werden soll. In den Störfaktoren werden alle anderen Größen zusammengefasst, die ebenfalls einen Einfluss auf die Versuchsergebnisse haben. In der Literatur werden die Störfaktoren weiterhin unterteilt in Konstant-, Rest- und Blockfaktoren [138]. Konstantfaktoren sind Faktoren, die ihren Wert während der Versuchsdurchführung nicht ändern, Blockfaktoren sind Faktoren, die sich zu Blöcken oder Stufen zusammenfassen lassen und Restfaktoren sind die übrigen Faktoren. Von der zusätzlichen Unterteilung wird in der vorliegenden Arbeit abgesehen, da die Unterteilung vornehmlich für die statistische Versuchsplanung von Interesse ist. Jeder Faktor besteht aus einer Menge von Klassen, den Ausgangsklassen.
Jede Hochdurchsatz-Untersuchung enthält eine Anzahl von Planfaktoren und eine Anzahl von Störfaktoren . Die Planfaktoren lassen sich anhand der Versuchseinheiten in einer ()-dimensionalen Matrix anordnen. Im Folgenden wird meist, zur einfacheren Notation, der Fall eines eindimensionalen Planfaktors () betrachtet. Analog hierzu werden die Störfaktoren in einer ()-dimensionalen Matrix notiert. Die Anzahl an Klassen des -ten Planfaktors werden im Folgenden mit und die Anzahl an Klassen des -ten Störfaktors als bezeichnet. Für jede Versuchseinheit wird bezüglich jedes Faktors eine Klassenzuordnung getroffen. Weiter werden alle Faktoren durch die noch zu definierenden Versuchsparameter bestimmt
[TABLE]
Zum besseren Verständnis sei als Beispiel eine Hochdurchsatz-Untersuchung angeführt, in welcher Zebrabärblingseier nach Koaguliertheit und Herzschlag untersucht werden sollen und welche an zwei Mikroskopen und an unterschiedlichen Tagen aufgenommen wurde. In diesem Beispiel sind die Zebrabärblingseier die Versuchseinheiten. Der Herzschlag sowie die Koaguliertheit sind die Planfaktoren, mit jeweils Klassen, , . Hierbei steht bei beiden Planfaktoren die Klasse für ja, die Klasse für vielleicht und Klasse für nein. Die Mikroskope und Aufnahmetage sind Störfaktoren mit jeweils einer Klasse für jedes Mikroskop und jeden Aufnahmetag. Die gewählten Parameter des Mikroskops wie Vergrößerung, Beleuchtungsstärke etc. sind die Versuchsparameter jeder Versuchseinheit . Die Versuchsparameter sind für die Planfaktoren und Störfaktoren normalerweise identisch (). Der gesamte Ablauf der Hochdurchsatz-Untersuchung, vom mit bezeichneten realen Versuch bis zur Klassenzuweisung der jeweiligen Klassen aus ist in dem Schema in Abb. 9 dargestellt.
Für die wichtigsten Faktoren der verwendeten Zebrabärblingslarven, nämlich dem Alter und dem Faktor für die gesamte erforderliche Zeit für die Realisierung , werden Bezeichner eingeführt. Alle weiteren Faktoren werden in zusammengefasst. Die Realisierung jedes Versuchs ist Element einer Menge, deren Inhalt abhängig von den Randbedingungen des Versuchs ist und mit bezeichnet wird. Es lässt sich nun formulieren:
[TABLE]
Die notwendige Zeit für einen Versuch (ohne Parallelisierung der Arbeitsabläufe) setzt sich zusammen aus der Summe der Dauer aller notwendigen Präparationsschritte , mit der Anzahl an Präparationsschritten und der Dauer der Akquise
[TABLE]
Die Zugehörigkeit der Versuche zu den jeweiligen Klassen ist unbekannt und soll in der Hochdurchsatz-Untersuchung durch einen Klassifikator geschätzt werden. Schätzungen werden mit einem Dach gekennzeichnet. Ebenso lässt sich die Klassenzugehörigkeit der Restfaktoren aus schätzen. Es ergeben sich die Abbildungen und
[TABLE]
Die Zuordnung zu den Klassen von ist Ziel der Hochdurchsatz-Untersuchung und wird in Abhängigkeit des Nutzsignals und des noch zu definierenden Parametervektors erfolgen. Das Nutzsignal steht nicht unmittelbar zur Verfügung, sondern muss aus dem Bild extrahiert werden. Die Extraktion setzt sich aus den Teilschritten Datenerfassung , Bildstrom-Vorverarbeitung und Segmentierung zusammen.
Das Nutzsignal wird mittels der Matrix dargestellt. Für eine gute Fragestellung muss das Nutzsignal in jedem realen Versuch enthalten sein. Der Bildstrom ist die digitale Repräsentation des realen Versuchs . Er ist die Abtastung von bezüglich der Zeit und des Ortes und muss für eine erfolgreiche Hochdurchsatz-Untersuchung das Nutzsignal abbilden. Daher muss für die Abtastung auch das Abtasttheorem [154] eingehalten werden. Die Bildakquise bildet somit derart auf ab, dass der biologische Effekt und damit das Nutzsignal aus dem Bildstrom extrahierbar sind:
[TABLE]
Der Bildstrom ist abhängig von den Parametern . Dabei handelt es sich zum einen um die Art des Detektors und der aufgezeichneten Wellenlänge, d.h. der Akquise-Modalität des Bildstroms . Des Weiteren muss der Raum der Akquise als Parameter berücksichtigt werden und wird durch den Vektor beschrieben. Schließlich müssen noch die Anzahl akquirierter Frames und die Aufnahmefrequenz (engl. Framerate) gewählt werden. Damit lässt sich für den Bildstrom schreiben:
[TABLE]
Die wichtigste Forderung an die Bildakquise ist, dass der Bildstrom ein geeignetes Nutzsignal enthält. Das bedeutet, dass die Parameter des Bildstroms in Abhängigkeit der Parameter des Nutzsignals gewählt werden. Die Parameter des Nutzsignals lassen sich somit in Übereinstimmung mit Abb. 8 analog zu den Parametern des Bildstroms formulieren
[TABLE]
Gut gewählte Akquise-Parameter des Bildstroms bilden also möglichst ausschließlich das Nutzsignal ab.
Der mit genannten Parametern akquirierte Bildstrom setzt sich aus Einzelbildern zusammen, welche jeweils durch eine Matrix von Intensitätswerten beschrieben werden:
[TABLE]
Hierbei ist der Index aller Abtastungen und der Index der Wiederholungen. Weiter ist die Auflösung des Bildes in - und die Auflösung des Bildes in -Richtung, der Index für Schichtaufnahmen bzw. Fokusebenen und , der Index der Modalitäten. Der gesamte Bildstrom lässt sich somit schreiben als:
[TABLE]
Es ergeben sich die Bild-Rohdaten des Bildstroms mit insgesamt Bildern.
[TABLE]
Der Einfluss der Bildstromparameter ist anschaulich in Abb. 10 dargestellt.
In vielen Fällen ist eine Vorverarbeitung des Bildstroms sinnvoll oder notwendig. In einer Bildvorverarbeitung werden z.B. Extended-Fokus-Bilder berechnet (vgl. Abschnitt 2) oder es werden Punktoperationen wie Histogrammanpassungen oder Korrekturen des Gammawertes vorgenommen. Ebenso fallen alle linearen und nichtlinearen Bildfilter-Operatoren in den genannten Bereich. Die Bildvorverarbeitung wird hier allgemein beschrieben als eine Abbildung des Bildstroms auf einen für die weitere Verarbeitung verbesserten Bildstrom , welche von einem oder mehreren Filterparametern abhängt. Die Parameter sind z.B. die gewählten Filtermasken, Schwellenwerte usw. Der Aufbau von ist hierbei analog zu Formel (15)
[TABLE]
Im Allgemeinen ist eine Dimensionsreduktion der Daten beabsichtigt. In speziellen Fällen steigt die Dimension jedoch auch an, z.B. wenn es notwendig ist, neue Bilder zu berechnen. Bildfusionen hingegen führen immer zu einer Dimensionsreduktion.
Die Bildverarbeitung hat nun die Aufgabe, das Nutzsignal in jedem Bild aus dem Bildstrom zu extrahieren oder zu segmentieren. Die Segmentierung bildet somit auf ab
[TABLE]
Hierin sind Ausschnitte jedes Einzelbildes des originalen Bildstrom, welche nun möglichst nur das Nutzsignal enthalten
[TABLE]
Der segmentierte Bildstrom setzt sich analog zum Bildstrom zusammen. Die Dimension von ändert sich bei der Segmentierung. Da auf die Region von Interesse Bezug genommen wird, wird die Dimension gegenüber meist geringer. Lediglich die Modalität kann durch das Errechnen bzw. Extrahieren von informationstragenden neuen Bildern, wie beispielsweise Differenzbilder, auch größer werden.
Als Klassifikatoren werden Systeme bezeichnet, die in der Lage sind, Eingangsgrößen verschiedenen Klassen zuzuordnen. Die extrahierte Nutzsignalinformation wird nun in Anlehnung an [110, 141, 137] einer Klasse zugewiesen. Der Ablauf der Klassifikation setzt sich aus den Teilschritten Merkmalsextraktion und , Merkmalsauswahl , Merkmalsaggregation und der Entscheidungsfindung mittels einer Entscheidungsregel zusammen (vgl. Abb. 9 unten). Für jeden Teilschritt sind Parameter zu wählen, für die die Bezeichner eingeführt werden und auf die im Folgenden näher eingegangen wird.
Es soll nun nach Abb. 9 mittels der Nutzsignalinformation jeder Versuchseinheit eine Klasse der Planfaktoren aus zugewiesen werden. Analog lässt sich auch die Klassenzugehörigkeit zu einer der Störgrößen aus schätzen:
[TABLE]
Da eine direkte Lösung des Problems anhand der Bilddaten nicht möglich ist, wird die Nutzsignalinformation durch Ersatzgrößen, die Merkmale, charakterisiert. Die Aufgabe ist die Berechnung niederdimensionaler und informationstragender, d.h. das Nutzsignal beschreibender, Merkmale. Die wichtigsten Merkmale basieren auf Pixeln, Kanten, Texturen, Regionen, Objekten und Szenen (vgl. [88, 110]).
Die Merkmalsextraktion transformiert die Daten der Nutzsignalinformation für jeden Abtastzeitpunkt in einen -dimensionalen Merkmalsraum in Abhängigkeit der Parameter . Für jede Zebrabärblingslarve enthält die Matrix daher Merkmalswerte zu jedem Abtastzeitpunkt und somit eine Zeitreihe für jedes Merkmal. Diese Zeitreihen werden für die Hochdurchsatz-Untersuchung Fisch-Informationszeitreihen genannt.
[TABLE]
Die Fisch-Informationszeitreihen werden durch eine Dimensionsreduktion wiederum mittels Merkmalen beschrieben. Es entsteht schließlich ein -dimensionaler Merkmalsraum in Abhängigkeit der Parameter . Solche Merkmale werden für die Hochdurchsatz-Untersuchung Fisch-Informationsmerkmale genannt
[TABLE]
Die extrahierten Merkmale sind häufig redundant oder enthalten z.T. keine Information, die sich für eine Klassifikation eignet. Daher wird eine Merkmalsauswahl angewandt, die sich eines Kriteriums bedient, um die aussagekräftigsten Merkmale zu identifizieren. Eine Übersicht zu solchen Kriterien ist in [3, 115] zu finden. Der Bezeichner steht für die Indexmenge der ausgewählten Merkmale und es ergibt sich die Abbildung
[TABLE]
Die Merkmalsaggregation dient zur Reduktion der Dimension des Merkmalsraumes. Hierdurch werden zudem Klassifikationen, die auf Merkmalsräumen mit basieren, grafisch darstellbar. Es existieren verschiedene Verfahren unterschiedlicher Arbeitsweise, von denen die bekanntesten die Hauptkomponentenanalyse (HKA) und die lineare Diskriminanzanalyse (LDA) sind. Eine Übersicht findet sich in [34, 71, 150, 141]. Beide Verfahren liefern als Ergebnis einen -dimensionalen Merkmalsraum, welcher eine Linearkombination aller Merkmale ist und von dem Parameter der gewählten Aggregation abhängt.
[TABLE]
Den abschließenden Schritt des Klassifikatorentwurfs stellt die Konstruktion der Entscheidungsregel dar, die den entstandenen Merkmalssatz einer der Klassen von bzw. , in Abhängigkeit der Klassifikationsparameter , zuweist. Da es sich hierbei um eine Schätzung handelt, wird die Zuordnung bzw. bezeichnet
[TABLE]
Nun sind alle Versuchsparameter des Versuchsplans der Hochdurchsatz-Untersuchung bestimmt und werden in dem Parametervektor zusammengefasst
[TABLE]
Die gesamte Abbildung ergibt dann:
[TABLE]
6 Anforderungsgerechte Versuchsauslegung
Nach der Formulierung der Anforderungen in Abschnitt 3 und dem Aufzeigen der zur Verfügung stehenden Versuchs- und Auswerteparameter besteht eine schwierige Aufgabe darin, diejenigen Parameter auszuwählen, welche die Anforderungen auch erfüllen. Daher wird, um die Struktur der Hochdurchsatz-Untersuchung den Anforderungen entsprechend zu erstellen, im folgenden Abschnitt ein Flussdiagramm zur erfolgreichen Gestaltung eines Hochdurchsatzversuchs vorgestellt, welches in Abb. 11 dargestellt ist. Beim Durchlaufen des Diagramms werden Schritt für Schritt Parameter festgelegt und jeweils geprüft, ob die Auslegung den Anforderungen gerecht wird.
In diesem Flussdiagramm werden vier Versuchspläne erstellt, die zur erfolgreichen Strukturierung erforderlich sind:
Versuchsplan für die Identifikation des biologischen Effekts, d.h. Ermittlung des Nutzsignals, 2. 2.
Versuchsplan für die Akquise des Nutzsignals, d.h. Durchführung der Messung, 3. 3.
Versuchsplan für die Extraktion und Klassifikation der Merkmale, d.h. Auswertung des Bildstroms, 4. 4.
Versuchsplan für die Durchführung der Hochdurchsatz-Untersuchung, d.h. die Erstellung des statistischen Versuchsplans.
Innerhalb der ersten drei Schritte werden, für gewählte Parameter, die in Abschnitt 3 formulierten Anforderungen geprüft, bevor der 4. Schritt, die Durchführung der Hochdurchsatz-Untersuchung, vollzogen werden kann. Dabei können nicht alle Anforderungen in der Reihenfolge, in der sie in den Kategorien beschrieben sind, geprüft werden. Beispielsweise ist die Prüfung auf Skalierbarkeit erst möglich, wenn alle anderen Parameter bereits gewählt sind, da jeder Abschnitt sich für die hohe Stückzahl an Einzelversuchen eignen muss. Die zu prüfenden Kategorien sind nach Abschnitt 3:
- •
Anforderungen an die Durchführung,
- •
Anforderungen an die Messung,
- •
Anforderungen an die Auswertung
- •
und Skalierbarkeit der Hochdurchsatz-Untersuchung.
Der 1. Schritt, das Finden des biologischen Effekts (des Nutzsignals), ist vollständig biologisch motiviert. Die gesetzlichen Vorschriften müssen beachtet werden, eine permanente Prüfung bei der Auswahl neuer Verfahren ist vorzusehen. Die biologische Realisierbarkeit zeigt sich im Vorversuch, d.h. der Biologe muss verständlicherweise in der Lage sein, den Effekt, der im Hochdurchsatz untersucht werden soll, beispielsweise durch eine Stimulation manuell zu erzeugen. Entscheidend für die technische Durchführbarkeit der Hochdurchsatz-Untersuchung ist, ob das Nutzsignal reproduziert werden kann. Die Reproduzierbarkeit kann durch mehrfaches Wiederholen des biologischen Versuchs geprüft werden. Ist dies nicht gegeben, so ist mit dem jeweiligen Effekt keine Hochdurchsatz-Untersuchung möglich und ein anderer, besser geeigneter Effekt muss gewählt werden. Der Schritt prüft die Parameter der beiden Arbeitsschritte „Versuchsplanung“ und „Vorbereitung“ in Abb. 2.
Wurde ein reproduzierbarer biologischer Effekt gefunden, wird versucht, das Nutzsignal zu messen, d.h. mittels einer der erwähnten Methoden zu akquirieren. Um den Anforderungen Eindeutige Präsenz der biologisch relevanten Information und Rückwirkungsfreiheit der Messung aus Abschnitt 3 zu entsprechen, muss die gewählte Methode dabei:
- •
das Nutzsignal robust abbilden,
- •
ein gutes Nutzsignal-Rausch-Verhältnis aufweisen,
- •
die Probe wenig beeinflussen,
- •
dem Abtasttheorem gerecht werden.
Die Prüfung kann weitgehend durch einfaches Ansehen der Bilder erfolgen. Sind die auszuwertenden Bereiche beispielsweise ein Gewebe in der Larve, so ist auf einen guten Kontrast dieser Bereiche zu achten. Beim Überprüfen der gewählten Abtastfrequenz und bei mit niedriger Frequenz auftretenden Nutzsignalen muss deren Frequenz zuvor mittels entsprechender Messeinrichtungen ermittelt werden. Eine möglichst vollständige Repräsentation des Nutzsignals im akquirierten Bildstrom muss angestrebt werden. Die große Bandbreite an möglichen biologischen Effekten und damit Nutzsignalen lässt eine allgemein gültige Prüfmethode nicht zu. Die Erfahrung zeigt jedoch, dass sich Daten qualitativ für eine automatische Auswertung eignen, wenn es einem ungeübten menschlichen Betrachter möglich ist, das Nutzsignal im Bildstrom leicht zu identifizieren und ggf. zu markieren. Andernfalls muss eine alternative Methode zur Bildakquise angewandt werden oder der biologische Effekt muss verworfen werden (vgl. Abb. 11). Die Akquise findet sich in Abb. 2 im Block „Mikroskopie“. Das Ergebnis der Akquise ist der Bildstrom.
Ist das Nutzsignal robust im Bildstrom enthalten, besteht der dritte Schritt darin, Methoden der Bildverarbeitung anzuwenden und die Anforderungen an die Auswertung zu prüfen. Hier zeigt sich, ob die Präsenz des Nutzsignals mit der Akquise-Methode bzw. den gewählten Akquise-Parametern des 2. Schritts ausreichend ist. Es ist zu prüfen, ob:
- •
das Nutzsignal durch die Segmentierung von anderen Informationen im Datensatz getrennt werden kann,
- •
die Segmentierung ausreichend robust gegenüber Helligkeit, Reflexionen, Lage des Objekts u.a. ist,
- •
der Berechnungsaufwand vertretbar ist.
Nach der Extraktion von Merkmalen aus dem Bildstrom sind die Merkmale ebenfalls auf das Erreichen der Anforderungen aus Abschnitt 3 zu prüfen. Merkmale müssen zwar, je nach Nutzsignal der Hochdurchsatz-Untersuchung, unterschiedlichen Bedingungen gerecht werden, dennoch lassen sich aus der Praxis allgemein gültige Prüfungen formulieren:
Vom Nutzsignal unabhängige Größen (wie etwa die Beleuchtung) dürfen die Merkmale nicht oder nur unwesentlich beeinflussen. 2. 2.
Der Berechnungsaufwand soll möglichst gering sein. 3. 3.
Die multivariate Trenngüte muss gewährleistet sein, d.h. die Kombination der Merkmale muss eine gute Unterscheidung der Klassen des Nutzsignals erlauben. 4. 4.
Die Ausprägungen der Merkmale müssen möglichst robust sein und daher eine geringe Empfindlichkeit gegenüber Rauschen, Messfehlern oder zeitvarianten Änderungen aufweisen. 5. 5.
Das Ergebnis muss sich übersichtlich präsentieren lassen.
Sollte einer der genannten Punkte nicht erfüllt sein, muss, wie in Abbildung 11 ablesbar, geprüft werden, ob mittels einer anderen Akquise-Methode aussagekräftige Merkmale extrahiert werden können. Falls nicht, so muss der biologische Effekt verworfen werden.
Nach erfolgreicher Merkmalsextraktion ist das Nutzsignal durch Zahlenwerte abgebildet und es muss abschließend geprüft werden, ob der Umfang der Hochdurchsatz-Untersuchung mit der ausgearbeiteten Lösung durchgeführt werden kann. Auf der Basis der bis zum jetzigen Zeitpunkt verfügbaren Informationen kann eine Hochrechnung für die wichtigsten Rahmenbedingungen für den Versuch erfolgen. Zu prüfende Werte sind die Akquise-Dauer, der notwendige Speicherplatz, die notwendige Rechenkapazität und zur Verfügung stehende Computer-Hardware, die zur Verfügung stehenden Modellorganismen, der Durchsatz der Mikroskop-Plattformen, die Arbeitskraft für die manuell durchzuführenden Schritte sowie die Präsentierbarkeit der Ergebnisse. Die berechneten Umfänge müssen mit den zur Verfügung stehenden Mitteln verglichen werden. Ist die Untersuchung nicht durchführbar, müssen Parameter skaliert werden. Eine Möglichkeit bietet z.B. das Anpassen der Anzahl von Einzelexperimenten. Bezüglich des Modellorganismus kann auf einen größeren oder kleineren Organismus ausgewichen werden. Beim Zebrabärbling lässt sich z.B. die Größe durch das Alter skalieren, d.h. durch das Verwenden jüngerer oder älterer Fische bzw. Larven. Auch die Anzahl gleichzeitig akquirierter Modellorganismen kann variiert werden. Ebenso ist das Verwenden von mehreren Mikroskopen zur Erhöhung des Durchsatzes möglich.
Wichtig bei der Skalierung ist, dass sich bei Anwendung einer der aufgezeigten Lösungsvorschläge (oder auch anderer) eine Veränderung auf jeden Schritt der Untersuchung auswirkt, wie im Konzept in Abschnitt 2 erarbeitet. Daher muss nach jeder Iteration das gesamte Flussdiagramm, mit den genannten Prüfungen, nochmals durchlaufen werden. Erst wenn die Hochdurchsatz-Untersuchung in der gewünschten Weise ohne weitere Anpassungen durchführbar ist, darf mit der tatsächlichen Ausführung des Experiments begonnen werden. Ein typischer Fehler ist es, während der Durchführung den Prozess, z.B. durch Parallelisierung, ohne erneute Prüfung zu beschleunigen. Ein solches Vorgehen führt oftmals zu Störfaktoren, deren Einfluss sich im Nachhinein nur schwer beseitigen lässt oder gar zum Scheitern der Hochdurchsatz-Untersuchung führt.
7 Bewertung
Das Ziel des in Kapitel 1 vorgestellten neuen Konzeptes ist es, den Erfolg einer automatisierten Auswertung von Hochdurchsatz-Untersuchungen sicherzustellen, was durch eine gesamtheitliche Betrachtung des Versuchs bei der Auswahl der Versuchs- und Auswerteparameter erreicht wird. Hierfür wurde ein breites Spektrum solcher Parameter identifiziert, eine allgemein anwendbare formale Notation eingeführt und hieraus wurden möglichst allgemein formulierte Anforderungen für eine erfolgreiche Versuchsauslegung abgeleitet. Mittels des abschließend vorgestellten Flussdiagramms wird eine strukturierte Vorgehensweise zur Umsetzung des Konzeptes unter Einhaltung der Anforderungen für die Praxis geliefert. Im folgenden Kapitel wird ein Modulkatalog vorgestellt, der für die Umsetzung des vorgeschlagenen Konzeptes die notwendigen Werkzeuge enthält.
Kapitel 2 Modulkatalog für die Auswertung und Präsentation von Hochdurchsatz-Untersuchungen am Zebrabärbling
1 Einführung
Das in der Kapitel aufgezeigte breit gefächerte Anwendungsfeld der Hochdurchsatz-Untersuchungen wird über Jahre hinweg neue Nutzsignale am Zebrabärbling hervorbringen, für die eine bildbasierte Hochdurchsatz-Untersuchung eine geeignete und schnelle Analysemethode ist [99]. In allen Fällen wird nach der Bildakquise ein Bildstrom vorliegen, der analysiert und interpretiert werden muss. Jedes weitere Nutzsignal ist eine neue Herausforderung an jeden Teilbereich der Auswertung, was eine universell anwendbare Lösung für alle bekannten wie zukünftigen Fragestellungen ausschließt. Die Analyse der in der Literatur zu findenden Hochdurchsatz-Untersuchungen sowie die Erfahrung aus den für die vorliegende Arbeit durchgeführten Untersuchungen (vgl. Kapitel 4) zeigen jedoch, dass bei Hochdurchsatz-Untersuchungen von biologischen Datensätzen verschiedene Methoden sowie Möglichkeiten der Vereinfachung aus Sicht der Bildverarbeitung wiederholt vorkommen. Der hohe Durchsatz ermöglicht es, auf aufwändige Auswertungen schlechter oder schwieriger Daten von Einzelversuchen zu verzichten, solche Daten zu verwerfen und mit der Auswertung der übrigen Einzelversuche fortzufahren. Eine kurze Auswertedauer und ein gutes, übersichtliches Datenmanagement sowie die nachvollziehbare Darstellung des Lösungsweges sind von größerer Bedeutung als die perfekte Analyse des Einzelversuches. Durch die massenhafte Präparation und Akquise ist zudem eine hohe Schwankung der Qualität der Daten unumgänglich. Die Schwankung resultiert u.a. aus unterschiedlichen Füllhöhen der Näpfchen mit Flüssigkeit, schwankender Beleuchtung, schwankendem Alter der Larven und Bewegungen der Larven während der Aufnahme (vgl. Abschnitt 3).
Trotz der genannten Schwierigkeiten ist es für jede Hochdurchsatz-Untersuchung möglich, die Auswertungsschritte, die am Bildstrom vollzogen werden, in wenige Kategorien zusammenzufassen. Für jede der Kategorien schlägt die vorliegende Arbeit eine Reihe von Lösungen vor. Die Lösungen bestehen für jede Kategorie aus zu Modulen zusammengefassten Methoden, welche in den folgenden Abschnitten vorgestellt werden. Alle Module einer Kategorie haben gemeinsam, dass sie die gleichen Ein- und Ausgangsgrößen besitzen. Für die jeweils vorliegende biologische Fragestellung müssen aus jeder Kategorie ein oder mehrere passende Module gewählt und spezifiziert werden. Die vorkommenden Datenverarbeitungsmethoden wurden entweder in der vorliegenden Arbeit entwickelt, wie z.B. die neuartige Normalisierung für Hochdurchsatz-Untersuchungen (Abschnitt 2), die Trennung von Einzelobjekt (Fischei) vom Hintergrund (Abschnitt 3) und das neue Verfahren zum Tracking des Chorions (Abschnitt 3) oder es handelt sich um bereits bekannte Methoden, die für die Hochdurchsatz-Untersuchung modifiziert wurden. In Abb. 1 ist der Modulkatalog visualisiert und die neu entwickelten Module sind rot hervorgehoben. Das vorliegende Kapitel stellt alle Module jeder Kategorie zu einem Modulkatalog zusammen. Der Vorteil des Kataloges ist, dass es mit dessen Hilfe möglich wird, einen Großteil der bekannten als auch zukünftigen Problemstellungen von bildbasierten Hochdurchsatz-Untersuchungen ohne großen Entwicklungsaufwand zu lösen. Lediglich die Auswahl geeigneter Module und die Anpassung der jeweiligen Auswerteparameter auf die vorliegende Fragestellung sind durch den Anwender durchzuführen.
Der Ablauf der Datenverarbeitung, die Analyse und Interpretation des im Bildstrom enthaltenen Nutzsignals, lässt sich gemäß Abb. 1 in sieben Kategorien aufspalten, auf die in den folgenden Abschnitten eingegangen wird. Die Entwurfsphase der Auswertung verläuft nicht schematisch, sondern ist ein iterativer Prozess, wie in Abb. 11 vorgestellt wurde. Dabei werden anhand der Zwischenergebnisse Module, Auswerteparameter und Bewertungsmaße variiert. Die Bewertungsmaße sind z.B. die Güte der Klassifikationen oder die visuelle Kontrolle der Ergebnisse der Segmentierung. Sie nehmen Einfluss auf die genannte Variation und basieren auf den Zwischen- und Endergebnissen der Blöcke der Modulkategorien. Sie helfen bei der Findung der am besten geeigneten Struktur und Auswerteparameter sowie bei der Einschätzung der Qualität der Lösung [110].
Zum besseren Verständnis der Module werden einige durch konkrete Beispiele veranschaulicht. Bei der Vorstellung der Module wird zudem bei Beispielen immer versucht, die Beispiele und Datensätze möglichst einfach zu halten. Bildverarbeitungsmodule werden beispielsweise bevorzugt anhand von einzelnen Grauwertbildern entsprechend Formel (1) beschrieben, auch wenn die Module in der Praxis auf den wesentlich komplexeren Bildstrom nach Formel (15) angewandt werden. Sollte die Anwendung auf einen Datensatz höherer Dimension nicht möglich sein, wird an der entsprechenden Stelle darauf hingewiesen.
2 Bildstrom-Vorverarbeitung
Notwendige Voraussetzung für eine erfolgreiche Auswertung ist ein Bildstrom, dessen Bilddaten ein konsistentes und ausreichend starkes Nutzsignal enthalten. Durch den Einfluss der vielen bereits in Abschnitt 4 diskutierten Störungen ist dies in realen Problemstellungen oft nicht unmittelbar gegeben. Des Weiteren müssen die Rohdaten bei Schichtaufnahmen erst zu einem verarbeitbaren Datensatz zusammengesetzt werden. Die Bild-Vorverarbeitung hat zum Ziel, den Bildstrom für die weitere Verarbeitung aufzubereiten bzw. zu verbessern.
Eingang der Modulkategorie Bildstrom-Vorverarbeitung sind die Rohdaten, d.h. der unverarbeitete Bildstrom , wie er bei der Akquise aufgezeichnet wurde. Als Ausgang steht nach erfolgreicher Verarbeitung ein verbesserter Bildstrom zur Verfügung, der sich für die Segmentierung eignet und dessen Dimension so groß wie nötig, jedoch so gering wie möglich ist.
1 Auswahl von Zeitpunkten
Der erste Unterpunkt der Bildstrom-Vorverarbeitung in Abb. 1, die Auswahl von Zeitpunkten, steht für das Auswählen nur bestimmter Aufnahmen zu bestimmten Zeitpunkten aus dem Bildstrom. Er stellt eine Dimensionsreduktion des Bildstroms dar. Hierbei wird ein großer Bildstrom z.B. in mehrere Teile unterteilt oder auf der Basis von Vorwissen oder durch Sichtprüfung auf einen wesentlichen Teil beschränkt. Die Methode kommt vor allem dann zum Einsatz, wenn der Bildstrom zur Auswertung mehrerer Nutzsignale akquiriert wurde und der auszuwertende Planfaktor im Bildstrom redundant vorhanden ist. Ein Beispiel sind Bewegungssequenzen, die zur Detektion von Herzschlägen aufgezeichnet wurden. Mit einem solchen Datensatz lassen sich neben den Bewegungen auch instantane Nutzsignale wie z.B. die entwickelte Größe bestimmen. Für solche Nutzsignale ist aus der Sequenz bereits ein einziges Bild ausreichend, daher können die anderen zeitlichen Daten bei der Analyse ausgeschlossen werden. Ein Auswerten aller Bilder des Bildstroms würde wenig neue Information zur Klasseneinteilung beitragen. In der Praxis zeigt sich zudem, dass manche Detektoren für die Erfassung von Bildern eine kurze Zeit benötigen, um die Betriebstemperatur zu erreichen, was zur Folge hat, dass die ersten Aufnahmen im Bildstrom z.T. verfälscht dargestellt werden. Daher ist es ratsam, bei der Auswahl nicht intuitiv die erste(n) Aufnahme(n), sondern zeitlich später aufgezeichnete Bilder zu wählen, oder, wenn das Nutzsignal es zulässt, die Auswahl der Bilder nach einer festgesetzten Vorschrift zu vollziehen. Die Auswahl der Bilder erfolgt somit zumeist nach einer manuell festgelegten Liste oder nach einer automatischen Auswahlvorschrift, wie z.B. der Ermittlung der schärfsten Schichtaufnahme mittels Wavelet-Transformation [72].
In jedem Fall wird eine Indexmenge bestimmt, die aus dem Bildstrom nur bestimmte Bilder auswählt. Das „Weglassen“ der restlichen Bilder ist hier eine einfache Möglichkeit zur Verringerung von Dimension und Größe des Datensatzes. Es sei jedoch darauf hingewiesen, dass der Schritt der Bildauswahl bei nicht sorgfältiger Auswahl die Messgenauigkeit verringert. Die Auswahl muss daher immer mithilfe von Vorversuchen und Bewertungsmaßen überprüft werden.
2 Neues Verfahren zur Bildfilterung und Normalisierung für inhomogene Datensätze
Einige Einflüsse von Störfaktoren bei Hochdurchsatz-Untersuchungen lassen sich mit vergleichsweise wenig A-priori-Wissen durch Methoden der Bildvorverarbeitung beseitigen oder abschwächen. Die Bildfilterung bezeichnet lineare und nichtlineare Punktoperationen wie Kontrasterhöhung, Registrierung, Korrektur von Beleuchtungseffekten, Rauschunterdrückung und Reduzierung von Artefakten [25, 51]. Auch Operationen zur Transformation, Änderung der Farbtiefe oder die Skalierung z.B. mittels sog. Bild- oder Gauß-Pyramiden fallen darunter [27]. Sie transformieren den Bildstrom wie in Formel (17) allgemein beschrieben. Das Ergebnis der genannten Methoden sind Bilder, welche sich im Vergleich zu den Rohdaten besser für alle nachfolgenden Schritte der Auswertung des Nutzsignals eignen.
Fast immer ist eine Bildnormalisierung notwendig, die als eine besondere Form von Filterung betrachtet werden kann. Gemäß Abb. 1a wirken Störgrößen direkt auf Biologie und Bildakquise. Solche Störungen sind z.B. das Aufzeichnen der Bilddaten zu unterschiedlichen Tageszeiten und Temperaturen, durch unterschiedliche Laboranten (z.B. mit Unterschieden in der Vorgehensweise bei nicht genau spezifizierten Versuchsprotokollen), mit geänderter Beleuchtung usw. Die Absolutwerte der für die Auswertung und Klassifikation aus dem Bildstrom extrahierten Merkmalszeitreihen (vgl. Abschnitt 4) hängen somit nicht, wie gewünscht, lediglich von der Nutzinformation ab, sondern ebenso von den genannten Störgrößen. Data-Mining Methoden zur Merkmalsauswahl sind somit mit hoher Wahrscheinlichkeit in der Lage, Merkmale zu identifizieren, die auf signifikante Unterschiede im Nutzsignal hindeuten. Die Ursache dieser Signifikanz ist jedoch nicht zwingend im Nutzsignal begründet, was wünschenswert ist, sondern oftmals durch die Störgrößen verursacht. Wird auf eine Normierung gänzlich verzichtet, können Einflüsse der Störgrößen ein Auswerten der Daten verschlechtern oder scheitern lassen.
Als Beispiel sei eine typische Aufnahme des Hochdurchsatzmikroskops Olympus-Scan angeführt. Die Intensitätswerte konzentrieren sich lediglich auf einen kleinen Wertebereich (vgl. Abb. 3), was zur Folge hat, dass eine Vielzahl üblicher Algorithmen wie etwa adaptive Schwellenwertverfahren [119, 149] oder Regionen-Wachstum-Verfahren [2] aufgrund des schlechten relativen Kontrastes scheitern. In einem solchen Fall wird die Verarbeitungskette aufgrund von Validitätsprüfungen abgebrochen, oder, sollten diese fehlen, werden sogar gänzlich falsche Werte zur Klassifikation herangezogen. Derartig falsche Merkmalswerte führen im ungünstigsten Fall zu systematischen Fehlern und Fehlklassifikationen.
Die Störgrößen sind hier u.a. das nicht vollständige Ausnutzen des zur Verfügung stehenden Wertebereichs, was zu einer schlechten Bilddynamik führt sowie abweichende Mikroskop-Einstellungen, das Rauschen des Detektors etc. Ein Unterdrücken des Einflusses der Störgrößen kann durch eine Korrektur der Intensitätswerte erfolgen. Hierbei wird jeder Pixel mittels des Parameters zentriert und durch einen die Verteilung beschreibenden Parameter dividiert. Für ein zweidimensionales Bild gilt:
[TABLE]
Für die Parameter und eignen sich z.B. statistische Parameter wie Mittelwert oder Varianz der Intensitätswerte
[TABLE]
oder auch Quantile und Extremwerte
[TABLE]
Durch das Einführen der Forderung einer prozentualen Mindestanzahl an gesättigten Pixeln lässt sich die Robustheit der Normierung mittels Gleichung (4) deutlich verbessern. Sinnvolle Werte für sind 2 Prozent und 98 Prozent:
[TABLE]
Das vorgestellte Verfahren wurde nach Formel (4) auf das Bild in Abb. 3 angewandt. Das Ergebnis ist in Abb. 3 dargestellt. Im Originalbild wird lediglich ein kleiner Bereich der möglichen Grauwerte ausgenutzt, wie im Histogramm zu erkennen ist (Abb. 3, unten). Auch ist die Larve im Bild fast nicht zu erkennen. Nach Anwendung des Verfahrens sind die Grauwerte über den gesamten Wertebereich verteilt und die Kontraste gut ausgebildet. Ohne weitere Validitätsprüfung birgt die Methode allerdings die Gefahr, dass lediglich das Bildrauschen auf den gesamten Wertebereich gestreckt wird. Der genannte Fall tritt z.B. ein, wenn bei der Präparation versehentlich ein Näpfchen nicht befüllt wurde. Solche Bilder lieferten in der weiteren Verarbeitung scheinbar sinnvolle Werte und können somit die Versuchsergebnisse stark verfälschen. Abhilfe schaffen hier Validitätsprüfungen, die über den gesamten Bildinhalt Auskunft liefern und fehlerhafte Bilder aussortieren. Eine einfache und robuste Prüfung ist beispielsweise der Mittelwert aller Intensitätswerte. Für ein leeres Well (Well = Näpfchen in einer Kunststoffplatte vgl. Abschnitt 1) fällt dieser aufgrund der fehlenden Abschattung durch das Präparat deutlich höher aus als mit Präparat.
Die Methode korrigiert jedoch keine Faktoren, die sich direkt auf den Versuch beziehen, wie z.B. ein unterschiedliches Alter der Fische oder einen unterschiedlichen Mikroskoptyp. Als Beispiel sei hier die Hochdurchsatz-Untersuchung zur Ermittlung der akuten Toxikologie gewählt [122]. In Abb. 5 ist ein Scatterplot einer Hochdurchsatz-Untersuchung von 2436 Versuchseinheiten (hier jeweils ein Zebrabärbling) aufgetragen, welche an zwei unterschiedlichen Mikroskopen aufgezeichnet wurde. Ein typisches Merkmal zur Klassifikation der Bewegung wurde ausgewählt (vgl. hierzu Abschnitt 2). Der Einfluss der beiden Mikroskope ist deutlich, durch einen Offset der Merkmalswerte zueinander zu erkennen. Solche Einflüsse, wie sie in diesem Beispiel bereits zwischen zwei Mikroskopen des gleichen Typs entstehen, sind zwischen unterschiedlichen Laboren ungleich größer.
Um Versuche auch zwischen unterschiedlichen Laboren, Mikroskopen und Tagen vergleichbar zu machen, muss der Bildstrom durch auf den Versuch bezogene Parameter normalisiert werden. Hier ist meist das Normalisieren mittels der Negativ- oder Positiv-Kontrollen erfolgreich [101]. Im gezeigten Beispiel scheitert die Methode jedoch ebenfalls, da auch die Merkmalswerte in den Positiv-Kontrollen schwanken. Kontrollen sollten zwar ein vergleichbares Verhalten zeigen, was hier jedoch nicht der Fall ist, wie Abb. 5 zeigt. In der Abbildung wurden alle Merkmalswerte mittels der Kontrollen normiert. Insbesondere bei den Merkmalswerten von Mikroskop 1 (blau dargestellt) streuen nach der Normierung die Merkmalswerte stärker als zuvor. Beispielsweise haben die ersten 84 Versuchseinheiten (96 Versuche auf einer Platte davon 12 Kontrollen zur Normalisierung) nach der Normalisierung Merkmalswerte welche minimal etwa bei 0 liegen. Die nächste Platte (Nummer Versuchseinheit 84 bis 168) zeigt Minimalwerte unter -100. Klarer wird die unterschiedliche Verteilung der Merkmalswerte durch den Einfluss der Mikroskope in Abbildung 6, in der diese anhand eines Histogramms veranschaulicht wird. Die hier dargestellten Larven sind sich in beiden Aufnahmen (Reihenweise verglichen) sehr ähnlich, die Merkmalswerte (hier Schwerpunkt des Histogramms, vgl. Abschnitt 1) zeigen jedoch erhebliche Unterschiede. In einem konsistenten und normalisierten Versuch sollte sich wenig Unterschied bei der Merkmalsverteilung der gleichen Planfaktoren von vergleichbaren Versuchseinheiten zeigen, selbst wenn sie von unterschiedlichen Mikroskopen stammen. Bisherige Lösungen müssen einen solchen Datensatz verwerfen.
Deshalb wurde im Rahmen der vorliegenden Arbeit eine neue Methode erarbeitet, welche in der Lage ist, ein solches Problem zu lösen und auch inhomogene Datensätze vergleichbar macht [139]. Ein Klassifikator ist umso besser, je exakter der Klassifikator in der Lage ist, die Faktoren oder der wahren Klasse oder zuzuordnen. Es lässt sich die Erfolgsrate für Planfaktoren und Störfaktoren für jede Versuchseinheit über alle Ausgangsklassen angeben durch:
[TABLE]
[TABLE]
Die mittlere Klassifikationsgüte wird bestimmt durch:
[TABLE]
Im Falle einer perfekten Klassifikation werden alle Planfaktoren korrekt der zugehörigen Ausgangsklasse zugeordnet, während sich die Klassen aller anderen Faktoren nicht trennen lassen und daher gleichverteilt nach dem Zufallsprinzip auf die Ausgangsklassen aufgeteilt werden:
[TABLE]
Die letzte Formel setzt allerdings voraus, dass die Merkmale von den Störfaktoren unabhängig sind, was in realen Systemen nicht der Fall ist. Daher müssen alle Parameter in so gewählt werden, dass der Einfluss der Störfaktoren klein wird. Dieses Problem kann mittels Filter- oder Wrapperansätzen gelöst werden [79, 53]. Filter bestimmen die Versuchsparameter ohne Kenntnis der wahren oder geschätzten Klassenzugehörigkeit
[TABLE]
Wrapper hingegen berücksichtigen die Klassifikationsergebnisse bei der Parameteradaption:
[TABLE]
Wrapper liefern üblicherweise bessere Ergebnisse auf Kosten eines deutlich höheren Rechenaufwands.
Die Optimierung sucht nach einer Parameterkombination, welche einen Kompromiss zwischen und sucht.
Ein mögliches Kriterium zur Optimierung ist
[TABLE]
Der Parameter wichtet die Klassifikationsergebnisse zwischen Plan- und Störfaktoren und muss für sinnvolle Ergebnisse mit signifikantem Einfluss der Planfaktoren größer als 0.5 gewählt werden (Bei Werten < 0.5 ist der Einfluss der Störfaktoren auf das Optimierungskriterium größer als der Einfluss der Planfaktoren). Für den Fall wird die Optimierung zu einem gewöhnlichen Wrapper [140]. Es lassen sich Lösungsansätze sowohl mit Wrappern als auch Filtern realisieren oder auch durch eine Kombination beider. Eine Kombination kann etwa die Optimierung eines normalisierten Bildstroms mittels eines Wrappers sein.
Für den Fall, dass alle Merkmalswerte zur gleichen Klasse der Störfaktoren gehören, liefern konventionelle Klassifikatoren in einer Kreuzvalidierung gute Ergebnisse, auch für Testdaten [44, 78]. Gehören die Testdaten jedoch einer anderen Klasse der Störfaktoren an, welche bei der Kreuzvalidierung nicht vertreten war, kann das tatsächliche Ergebnis deutlich schlechter ausfallen. Daher ist die Kreuzvalidierung kein geeignetes Mittel, die Validität der Klassifikation zu überprüfen. Die besten Ergebnisse lassen sich erzielen, wenn in den Trainings- und Testdaten alle Klassen der Stör- und Planfaktoren vertreten sind.
Den Erfolg der Methode verdeutlichen die Abbildungen 8 und 8 am Beispiel der Merkmalswerte aus Abbildung 6. Die Datenpunkte in Abbildung 8 welche mit gekennzeichnet sind gehören der Klasse koaguliert an, Datenpunkte mit gehören der Klasse lebendig an. Datenpunkte von Mikroskop 1 sind rot, Datenpunkte von Mikroskop 2 sind grün dargestellt. Der Einfluss des Störfaktors Mikroskop ist deutlich zu erkennen. Obwohl die Merkmalswerte beider Mikroskope Versuchseinheiten mit ähnlichem Status abbilden, überschneidet sich die Streuung der Merkmalswerte nicht. In Abbildung 8 schließlich sind die gleichen, jedoch mittels des Wrapperansatzes normalisierten Daten dargestellt. Ebenfalls gehören die mit gekennzeichneten Datenpunkte der Klasse koaguliert an und die mit gekennzeichneten Datenpunkte der Klasse lebendig an. Datenpunkte von Mikroskop 1 sind wie zuvor rot und Datenpunkte von Mikroskop 2 grün gekennzeichnet. Nach der Normalisierung ist eine Unterscheidung der Mikroskope, wie gewollt, nicht mehr unmittelbar möglich. Es lässt sich lediglich der Planfaktor Koaguliertheit klar abgrenzen. Damit sind die zuvor sowohl durch die Plan- als auch durch die Störfaktoren trennbaren Merkmalsräume nach der Normalisierung nur noch durch die Planfaktoren unterscheidbar und somit deutlich robuster für eine Hochdurchsatz-Untersuchung.
3 Bildkombination
Der letzte Modulblock in der Kategorie Bildstrom-Vorverarbeitung sind bildkombinierende Methoden. Solche kommen zum Einsatz, wenn bei der Bildakquise mehrere Fokusebenen oder Schichtaufnahmen akquiriert wurden, was vor allem bei Nutzsignalen der Fall ist, bei denen bestimmte Bereiche im Fisch unterschieden werden sollen. Die Bildkombination erstellt aus mehreren zweidimensionalen Bildern kombinierte Bilder und reduziert somit die Dimension. Bei Hochdurchsatz-Untersuchungen kommt vor allem die Kombination von Farbkanälen zu einem Grauwertkanal zum Einsatz, da Farbkanäle in bestimmten Fällen keine zusätzliche Information zur Nutzsignalinformation liefern. Eine ebenfalls wichtige Methode ist der Extended Focus [133]. Die Verfahren hierzu basieren auf der Annahme, dass alle zu fusionierenden Bilder den gleichen Inhalt zeigen, die Bildinformation in einer der Aufnahmen jedoch weniger gestört aufgezeichnet wurde als in anderen. Hier wird mittels eines Bewertungsmaßes in jeder Fokusaufnahme versucht, die beste Repräsentation der Szene auszuwählen und in das Ergebnisbild einzufügen. Es lassen sich damit deutliche Steigerungen der Schärfentiefe und damit des auswertbaren Bereichs innerhalb des Zebrabärblings erzielen. Eine ausführliche Beschreibung der Methoden findet sich u.a. in [25, 70, 165].
3 Segmentierung der Nutzinformation
Um das biologische Nutzsignal einer Hochdurchsatz-Untersuchung quantifizieren zu können, muss es von allen anderen Daten im Bildstrom separiert werden. Alle hier vorgestellten Module haben als Eingang den vorverarbeiteten Bildstrom und als Ausgang Merkmalsbilder . In die Kategorie Segmentierung der Nutzinformation gehören die folgenden drei Module.
Je Bildstrom ist genau eine Versuchseinheit zu jedem Zeitpunkt aufgezeichnet (Trennung Einzelobjekt und Hintergrund). 2. 2.
Im Bildstrom sind mehrere Versuchseinheiten zu jedem Zeitpunkt aufgezeichnet (Trennung mehrere Objekte und Hintergrund). 3. 3.
Zusätzlich zu 1. oder 2. ist die Versuchseinheit über einen bestimmten Zeitraum aufgezeichnet (Tracking).
Je Versuchseinheit werden Merkmalsbilder errechnet. Merkmalsbilder sind aus den Rohdaten abgeleitete Bilder wie z.B. Binärbilder (nach Anwendung eines Schwellenwertes) oder Differenzbilder von Bildsequenzen. Die Separation der Information im vorverarbeiteten Bildstrom erfolgt durch die sog. Segmentierung. Die Segmentierung ist das Gruppieren zusammengehöriger Bereiche. Im Folgenden werden die Bildregionen, welche die Information des biologischen Effekts enthalten, als Vordergrund und alle anderen Regionen als Hintergrund bezeichnet. Die Segmentierung trennt somit den Vordergrund vom Hintergrund und ermöglicht so die weitere Auswertung der im Vordergrund enthaltenen Nutzsignalinformation. Alle Methoden bewirken eine Reduktion des vorverarbeiteten Bildstroms auf die Nutzsignalinformation. Dabei unterscheidet sich das Vorgehen stark für die Fälle, ob mehrere Versuchseinheiten im Bild vorhanden sind bzw. sein können oder ob in der Versuchsauslegung festgelegt ist, dass lediglich eine Versuchseinheit, z.B. der Zebrabärbling (inkl. Chorion), im Bildstrom vorliegt.
1 Neue Methode zur Trennung von Einzelobjekt und Hintergrund
Zur Trennung der Nutzsignalinformation einer einzelnen Versuchseinheit vom Hintergrund sind bei akzeptabler Bildqualität bereits Schwellenwertverfahren in Kombination mit morphologischen Operatoren erfolgreich [4]. Adaptive Schwellenwertverfahren wie die Methode von Otsu [124, 125] oder Fuzzy-basierende Schwellenwertverfahren [55, 61] bieten hier jedoch deutlich robustere Ergebnisse [6, 5]. Der Vorteil der genannten Verfahren ist die kurze Rechenzeit, was gerade bei Roboteranwendungen wie z.B. dem automatischen Pipettieren von Eiern wichtig ist [132]. Ein Schwellenwertverfahren trennt jedoch ohne jegliche Prüfung Vorder- von Hintergrundpixeln. Daher muss für jedes gefundene Objekt nachträglich geprüft werden, ob es sich um eine Versuchseinheit oder ein Artefakt, z.B. Schmutz o.ä., handelt. Die besten Ergebnisse lassen sich unter Einbezug von Vorwissen, beispielsweise der Größe und Kontur der Nutzsignalinformation der Hochdurchsatz-Untersuchung, erzielen. Solche Informationen unterscheiden sich stark für die beiden Fälle:
Die Larve befindet sich im Chorion. 2. 2.
Die Larve befindet sich nicht mehr im Chorion.
In der vorliegenden Arbeit wurden neue Methoden für den ersten Fall entwickelt, da für den Hochdurchsatz das Dechorionieren, wie in Abschnitt 1 beschrieben, deutliche Nachteile hat. Unter Einbezug von Vorwissen, wie zum Beispiel der Kontur des Zebrabärblings, kann jedoch auch für den zweiten Punkt eine Segmentierung erfolgreich sein [49].
Im ersten Fall (der Zebrabärbling befindet sich im Chorion), lässt sich das zu findende Objekt gut durch die Größe und Form charakterisieren. Daher wird ein Schwellenwert mittels Intervallschachtelung so lange angepasst, bis das größte Objekt den Suchkriterien der Hochdurchsatz-Untersuchung gerecht wird. Bei der Suche nach dem Ei des Zebrabärblings ist das Ziel der Suche ein einzelnes Objekt, welches ein Mindestmaß für Rundheit und eine Größe innerhalb eines zuvor festgelegten Toleranzbereichs besitzt. Als Maßeinheit empfiehlt es sich, sich von der Bildauflösung unabhängige Maße, wie z.B. die wahre Größe in mm, zu wählen, da sich die Algorithmen somit auch auf andere Mikroskope, Kameras und Vergrößerungen übertragen lassen. Werden nach einer maximalen Anzahl an Iterationen die o.g. Kriterien nicht erreicht, wird die Suche abgebrochen und die Versuchseinheit als fehlerhaft markiert. Das Verfahren setzt voraus, dass die Mehrzahl der Versuche korrekt präpariert ist, d.h. genau ein Ei enthält, da solche Versuchseinheiten sonst als fehlerhaft detektiert, aus der weiteren Verarbeitung ausgeschlossen werden und somit wertlos sind. Die Validitätsprüfung geschieht hier durch Bestimmung von instantanen Merkmalen des größten Objektes. Typische Werte für die Ei-Größe und das Verhältnis der Durchmesser einer umschließenden Ellipse werden zu Beginn für typische Beispiele ermittelt und dann mit den Werten jeder Versuchseinheit verglichen. Alle Bilder außerhalb eines Toleranzbereichs von 20% des ermittelten Wertes werden verworfen. Für nähere Ausführungen zu Merkmalen und deren Extraktion sei auch auf Abschnitt 4 verwiesen. Schließlich wird das Bild auf den Bereich, der das größte Objekt enthält, zugeschnitten. Der Zuschnitt erfolgt durch Anpassung der Indizes des Bildstroms (vgl. Formel (18)).
2 Neue Methode zur Trennung von mehreren Objekten und Hintergrund
Für die Trennung mehrerer Eier von Zebrabärblingen vom Hintergrund kann ebenfalls auf eine Kette von Schwellenwerten und morphologischen Operatoren zurückgegriffen werden. Je mehr Versuchseinheiten pro Bild aufgezeichnet werden, desto größer ist jedoch die Wahrscheinlichkeit, dass sich die Versuchseinheiten bei der Aufnahme berühren und nach der Anwendung eines Schwellenwertes im Binärbild als ein einziges großes Objekt erscheinen. Wenn es nicht möglich ist, solche Cluster zu verwerfen, müssen diese anschließend durch zusätzliche Bildverarbeitungsschritte getrennt werden, z.B. mittels Regionen-Wachstumsverfahren oder Levelset-Algorithmen [39, 128, 187]. Da es sich hierbei um aufwändigere Verfahren handelt, wächst der Rechenaufwand deutlich und macht solche Verfahren für Hochdurchsatz-Untersuchungen weniger geeignet. Durch Ausnutzung von spezifischem Vorwissen lässt sich jedoch eine robuste Segmentierung finden, welche den besten Kompromiss zwischen Rechenaufwand und Robustheit liefert. Bei der Segmentierung mehrerer Zebrabärblingseier lässt sich eine Konstante im Bild ausnutzen, die in jeder Bildsituation und in jeder Position sowie bei sich bewegenden Larven vorkommt: Die Außenkante des Chorions. Die Außenkante bildet zudem auch den Abschluss des zu untersuchenden Objektes zu Nachbarobjekten und dem Hintergrund. Das Chorion kann vereinfacht durch einen Kreis beschrieben werden, welcher, wenn dieser einen akzeptablen Kontrast zum Hintergrund aufweist, durch den weitgehend bekannten Radius eine robuste Detektion zulässt. Zudem verändert sich der Durchmesser des Chorions während der Entwicklung der Larve nur unwesentlich [177]. Damit lässt sich die Trennung von mehreren Versuchseinheiten zumindest für die initiale Detektion der Eier auf eine Kreissuche reduzieren. Für die Kreissuche existieren in der Literatur bereits diverse Ansätze [31, 60]. Die Hough-Kreisdetektion kann erfolgreich zur Detektion des Chorions angewandt werden. Hierfür wird zu Beginn ein Kantenbild beispielsweise mittels des Canny-Filters errechnet [29]. Jedem Pixel im Kantenbild werden daraufhin alle potenziellen Mittelpunkte des Chorions zugeordnet und jeweils in einer Akkumulationsmatrix markiert. Mittels der Maxima der so entstandenen Matrix lässt sich daraufhin die Position der Zebrabärblingseier ermitteln. Limitierungen hat die beschriebene Methode bei niedrigem Kontrast des Chorions zum Hintergrund. In einem solchen Fall wird das Chorion nicht vollständig als Kante erkannt und das Maximum in der Akkumulationsmatrix ist weniger ausgeprägt. Bei sehr schlechtem Kontrast führt dies dazu, dass der Rücken der Zebrabärblinge stärker im Kantenbild repräsentiert ist als der Rand des Chorions, was zu einer fehlerhaften Kreisdetektion führt. Abbildung 21 in Kapitel 4 zeigt ein Beispiel der Anwendung der Methode. Allerdings ist der Rechenaufwand zum Erstellen der Akkumulationsmatrix größer als bei den erwähnten reinen Schwellenwertverfahren. Im Gegensatz zu jenen ist die Kreisdetektion jedoch sehr robust und das Ergebnis lässt sich anhand einfacher Validitätskriterien wie z.B. dem mittleren Grauwert des Kreisinhaltes überprüfen.
3 Neues Verfahren zum Tracking des Chorions
Liegen Bildsequenzen von mehreren Zebrabärblingseiern vor, ist es notwendig, die Position des Nutzsignals an jedem Zeitpunkt zu bestimmen und einander zuzuordnen. Die in Abschnitt 2 vorgestellte Methode zur Detektion des Chorions lässt sich zwar auf jedes Frame eines Bildstroms anwenden, allerdings bedeutet dies einen hohen Rechenaufwand. Günstiger ist es, das Tracking mittels Kreuzkorrelation hinzu zu kombinieren [70]. Tabelle 1 stellt den Rechenaufwand der beiden Methoden gegenüber.
Die Kreisdetektion benötigt gegenüber der Korrelation zweier Bilder signifikant mehr Rechenzeit. Ein besserer Ansatz ist es daher, die in einer initialen Kreisdetektion gewonnene Information der Eiposition auszunutzen und das Chorion mittels Korrelation zu tracken. Allerdings muss die Korrelation für jedes zu trackende Ei durchgeführt werden, während der Aufwand der Kreisdetektion von der Eianzahl unabhängig ist. Dennoch ergibt sich für eine typische Sequenz mit etwa 1000 Frames und 8 Eiern ein deutlicher Geschwindigkeitsvorteil gegenüber der ausschließlichen Kreisdetektion. Bei der Korrelation wird der Suchraum des Ortes im darauf folgenden Frame (das sog. Zielbild) auf einen kleinen Bereich um die bekannte Eiposition verringert. Die Einschränkung des Suchraums kann getroffen werden, da sich das Ei zwischen zwei Frames nur um eine endliche Pixelanzahl verschiebt und zudem die Driftbewegungen der Eier verhältnismäßig langsam bezüglich der Abtastrate sind. Problematisch hierbei sind jedoch kleine Abweichungen jeder gefundenen Position in jedem getrackten Frame, was zu einem „Wegdriften“ der aktuellen Position von der tatsächlichen Eiposition führen kann. Das Problem des Wegdriftens wurde gelöst, indem als Suchbild beim Tracking nicht das gefundene Ei, sondern ein einfacher Kreis mit dem Radius der Eihülle verwendet wurde. Da im Suchbild nur die Eihülle einen Kreis darstellt und im Suchraum nur ein Ei vorhanden sein kann, ist ein Wegdriften des Suchfeldes bei ausreichender Bildqualität ausgeschlossen. Mit dem zu Beginn aus der Hough-Kreisdetektion ermittelten Eidurchmesser wird das Suchbild mit lediglich einem Kreis erstellt. Dieses Bild wird im Suchraum mittels Korrelation so positioniert, dass es das Chorion bzw. das Kantenbild des Chorions möglichst gut abdeckt. Hierfür wird eine sog. Güte-Matrix erstellt, die einen Wert für die Übereinstimmung des Suchbildes im Zielbild enthält. Das Maximum in der Güte-Matrix stellt die wahrscheinlichste neue Position des Chorions dar und wird als Startpunkt für die Suche im nächsten Frame verwendet. Der Vorgang wird wiederholt, bis die gesamte Bildsequenz abgearbeitet ist und in jedem Frame die Position des Chorions bestimmt wurde. Abb. 9 veranschaulicht den Ablauf des Trackings.
Als Empfehlung zur Bestimmung der Parameter erweist es sich als zweckmäßig, den mittleren Eidurchmesser in den ersten Frames der ersten Bildsequenzen einer Hochdurchsatz-Untersuchung manuell zu ermitteln. Dieser kann dann mit einer Toleranz von 10% zur weiteren automatischen Kreissuche angewandt werden. Für den Suchraum wurden um das Suchbild problemspezifisch definierte Entfernungen (Standardparameter: vier Pixel) in - und -Richtung hinzugefügt. Dies erweist sich für die Zebrabärblinge bei einer Bildwiederholungsfrequenz von 30 fps als ausreichend.
4 Differenzbilder
Differenzbilder sind eine einfache Möglichkeit die Veränderung der Pixelwerte und damit die Bewegung der Zebrabärblingslarve in einem Bild darzustellen. Hierzu wird bei einer Bildsequenz das zeitlich später aufgezeichnete Bild vom vorhergehenden abgezogen. Um negative Pixelwerte zu vermeiden, wird der Absolutwert gebildet. Werden alle Bilder des Bildstroms nach dem Zeitpunkt der Akquise geordnet und wird sich zur einfacheren Notation hierbei auf lediglich eine Modalität und eine Schichtaufnahme beschränkt, so ergibt sich eine Zeitreihe mit Abtastzeitpunkten. Für die Differenzbilder lässt sich dann schreiben:
[TABLE]
Die entstandenen Differenz- oder Merkmalsbilder bilden die Basis für eine Vielzahl von Einzelmerkmalen, deren gemeinsames Ziel es ist, die Menge an Bewegung im gesamten Bild oder in Ausschnitten zu quantifizieren. Ein einzelnes Differenzbild aus einer solchen Zeitreihe wird im Folgenden mit bezeichnet.
4 Nutzsignalzeitreihen und -merkmale
Drei Typen von Nutzsignalen werden unterschieden:
Nutzsignale, die sich auf das Aussehen des Zebrabärblings beziehen, 2. 2.
Nutzsignale, die sich auf die Bewegung des Zebrabärblings beziehen und 3. 3.
Nutzsignale, die sich auf die Signalstärke von z.B. fluoreszierenden Markern beziehen.
Ziel der Merkmale ist es, die Nutzsignale zu quantifizieren und somit vergleichbar zu machen. Für jeden Typ der Nutzsignale wurden mehrere Merkmale entwickelt. Zwar ist ein einziges, signifikantes Merkmal zur Klassifikation oft bereits ausreichend, doch kann durch die Berücksichtigung mehrerer Merkmale eine niedrigere Fehlerrate erzielt werden. Gerade bei der starken Beeinträchtigung der Nutzsignale durch Störfaktoren, wie es bei Hochdurchsatz-Untersuchungen der Fall ist, ist die Extraktion von mehreren Merkmalen von Vorteil. Generell hat es sich für Data-Mining Methoden bei Hochdurchsatz-Untersuchungen bewährt, möglichst viele Merkmale zur Auswertung heranzuziehen und signifikante Merkmale später ausfindig zu machen. In den folgenden Abschnitten wird ein spezifischer, beschreibender Merkmalssatz aufgebaut, auf dessen Basis daraufhin eine Bewertung erfolgen kann. Damit ergeben sich als Eingangsgrößen der Modulkategorie von der Segmentierung bereitgestellten Nutzsignale und als Ausgangsgrößen Zeitreihen oder Merkmale (vgl. Formel (5) und Abb. 9).
1 Instantane Merkmale
Für den ersten Typ Merkmale, solche, die sich auf das Aussehen des Zebrabärblings beziehen, sind Einzelbilder zur Merkmalsextraktion ausreichend. Sie werden entweder durch Auswahl von Zeitpunkten, nach den Methoden aus Abschnitt 1 aus dem Bildstrom entnommen, oder es wurden bereits bei der Bildakquise lediglich Einzelbilder je Versuchseinheit akquiriert. Die Merkmale beurteilen ohne Berücksichtigung einer zeitlichen Veränderung den Zustand zum jeweiligen Aufnahmezeitpunkt. Zur Merkmalsextraktion wird ein einzelnes, vorverarbeitetes und segmentiertes Bild herangezogen.
Ein histogramm-basierendes Merkmal ist der Schwerpunkt des Histogramms über die Pixelwerte im Bild und berechnet sich für ein Einzelbild gemäß:
[TABLE]
wobei für das Histogramm gilt:
[TABLE]
Der Operator card bezeichnet die Kardinalität oder Mächtigkeit, welche für endliche Mengen gleich der Anzahl der Elemente einer bestimmten Menge ist.
Ein ähnliches, grauwert-basiertes Merkmal ist der Mittelwert über alle Pixel im segmentierten Bild . Es hat sich hierbei bewährt, Hintergrundpixel zuvor auf den Wert [math] zu setzen und bei der Berechnung auszuschließen:
[TABLE]
Beide Werte geben einen allgemeinen Hinweis, ob der Inhalt des segmentierten Bildes vergleichbar ist. Eine ähnlich entwickelte Zebrabärblingslarve hat bei gleichen Akquise-Parametern auch eine vergleichbare Grauwertverteilung und somit einen vergleichbaren Schwerpunkt des o.g. Histogramms bzw. einen ähnlichen Mittelwert der Grauwerte.
Steht etwa, wie bei den Eiern des Zebrabärblings, das Vorwissen zur Verfügung, dass sich die relevante Information in der Mitte des segmentierten Bildes (d.h. im Zentrum des Chorions) befindet, lassen sich weitere Merkmale wie der „mittlere Grauwert der mittleren Bildzeile“ und die „Schwankung der Grauwerte entlang der mittleren Bildzeile“ berechnen. Beide Merkmale sind ein guter Indikator für den Entwicklungsstand der Zebrabärblinge. Die Merkmale lassen sich weiter verbessern, wenn sie auf das Zentrum des segmentierten Bereichs einschränken werden, indem lediglich die mittleren 30% der mittleren Bildzeile ausgewertet werden:
[TABLE]
mit gerundeten Werten und .
Die Schwankung um die mittlere Bildzeile lässt sich nach Korrektur um die mittleren Grauwerte berechnen durch
[TABLE]
Nach Aufsummieren ergibt sich das Merkmal ebenfalls über den mittleren Bereich der mittleren Bildzeile
[TABLE]
Die Anzahl an Kanten in Kantenbildern ist ein guter Indikator für die Anzahl an ausgeprägten Details im Zebrabärbling und somit für die Vergleichbarkeit des Entwicklungsstandes. Die Algorithmen zur Kantendetektion „Canny“ [29] und „Laplacian of Gaussian (LoG)“ [62] wurden angewandt und ausgewertet:
[TABLE]
Es lassen sich weitere Merkmale ermitteln, indem das Aussehen der Objekte im Bild untersucht wird. Beispielsweise lässt sich die „Kugeligkeit“ oder „Rundheit“ des Bildinhalts des segmentierten Bildstroms bestimmen. Dafür wird nach Anwendung des ISO-Data Algorithmus [55] die längste mit der kürzesten Halbachse der umschließenden Ellipse verglichen. () sind hierfür die notwendigen zentralen Momente des gefilterten Bildes (vgl. [54]).
[TABLE]
[TABLE]
Für einen Validitätstest wird die Größe jedes Bildes als Merkmal extrahiert. So lassen sich bei der Auswertung deutlich größere oder kleinere Bildinhalte ausschließen.
[TABLE]
2 Auf Bewegungen bezogene Merkmale
Alle Merkmale, die sich auf die Bewegung der Zebrabärblinge beziehen, wurden aus Differenzbildern extrahiert. Die Merkmale unterscheiden sich vornehmlich dadurch, dass sie unterschiedlichen Wert auf charakteristische Phänomene der Bewegungen der Larven, wie etwa lokal oder global auftretende Änderungen, legen.
Ein geeignetes Merkmal ist die Standardabweichung in den Differenzbildern nach Formel (12):
[TABLE]
mit
[TABLE]
Das Merkmal quantifiziert die Variation der Pixel im Differenzbild. Bei Bewegung steigt die Standardabweichung an. Eine Variante ist es, das Merkmal über die Anzahl der Pixel und die Farbtiefe (Die Farbtiefe wird üblicherweise bei der Bildakquise festgelegt) zu normalisieren:
[TABLE]
Das Merkmal gibt Auskunft über die mittlere relative Änderung der Pixel.
Um Differenzen innerhalb dunkler und heller Bildbereiche direkt vergleichbar zu machen, wird der Mittelwert über die Intensitätswerte der Pixel normalisiert. Um Divisionen durch Null zu vermeiden, wird eine Konstante im Nenner addiert:
[TABLE]
mit
[TABLE]
Stark bewegte Regionen im Bild lassen sich quantisieren, wenn die Anzahl relevanter Pixeländerungen im Differenzbild bestimmt wird. Dazu werden Pixel gezählt, die Differenzen größer als ein dynamischer Schwellenwert aufweisen:
[TABLE]
Der dynamische Schwellenwert wird so bestimmt, dass er Differenzwerte übertrifft, die aus Bildrauschen resultieren. Bildrauschen bewirkt eine Abweichung der gemessenen Pixelwerte, ohne tatsächliche Änderung des aufgezeichneten Objektes. Wird ein Pixel eines mit Rauschen überlagerten Bildes mit bezeichnet, so liefern der Mittelwert und die Standardabweichung (hier durch das dreifache der Standardabweichung 99,7% aller Pixelwerte berücksichtigt) dieses Pixels :
[TABLE]
Durch Bildrauschen entstehen Ausreißer im Differenzbild mit Werten oberhalb eines mittels des c-Quantils über den Pixelwerten des Bildes gebildeten Schwellenwertes oder unterhalb eines mittels des (1-c)-Quantils über den Pixelwerten des Bildes gebildeten Schwellenwertes . Ihre Pixelwerte lassen sich bestimmen durch:
[TABLE]
c muss hierbei kleiner sein als der Anteil der maximal im Bild auftretenden Bewegung. Ein Wert von c=0.4 hat sich in der Praxis bewährt. Damit ergibt sich
[TABLE]
mit
[TABLE]
Das Merkmal bezieht sich auf die Anzahl relevanter, relativer Pixeländerungen im Differenzbild und berechnet sich wie in Formel (30), allerdings mit normalisierten Differenzwerten anstelle von .
[TABLE]
Die maximale Änderung im Differenzbild ist ein Maß für die stärkste Bewegung der Zebrabärblingslarve:
[TABLE]
Eine Variante des Merkmals ist es, das Merkmalsbild zuvor mit einem 3x3 Gaußfilter (Maximum im geglätteten Differenzbild) zu falten. Dies reduziert den Einfluss einzelner Ausreißer im Differenzbild. Es hat sich bewährt für 0.5 zu wählen:
[TABLE]
[TABLE]
mit
[TABLE]
wobei für den Faltungsoperator und für die Filtermaske steht.
Die Summe aller Änderungen im Differenzbild ist ein Maß für die Menge an Bewegung im Bild. Verschiedene Einflüsse bei der Bildakquise können dazu führen, dass im Bild ein Beleuchtungs- bzw. Helligkeitsverlauf auftritt, was die Bilddynamik beeinflusst. Da die Absolutwerte der Differenzbilder von der Dynamik in den Rohdaten begrenzt wird, entstehen so auch Abweichungen in der Messung. Um die Vergleichbarkeit der Merkmale und deren absoluten Werte sicherzustellen, ist eine Normierung sinnvoll. Daher wurden die Merkmalswerte mittels der Standardabweichung über alle Pixelwerte normalisiert. Somit berechnet sich das Merkmal nach:
[TABLE]
Wichtig bei einer solchen Normalisierung ist jedoch ein vergleichbarer Bildinhalt. Ist in den Bildern beispielsweise eine variierende Anzahl an Eiern abgebildet, so scheitert die Methode.
Die einfachste Form zur Ermittlung der Bewegung im Differenzbild ist die Summe aller Änderungen, ohne jegliche Normalisierung nach:
[TABLE]
3 Auf Signalstärke bezogene Merkmale
Merkmale zur Bestimmung der Signalstärke finden Anwendung, wenn die Stärke des auszuwertenden Nutzsignals durch den optischen Detektor erfasst wurde. Bei Hochdurchsatz-Untersuchungen mit Zebrabärblingen ist dies vor allem bei mittels Fluoreszenzmikroskopie generierten Bilddaten der Fall. Solche Merkmale gestatten einen Rückschluss auf die Menge an fluoreszent leuchtenden Markern. Die Berechnung erfolgt meist mittels Addition aller Pixelwerte im segmentierten Bildstrom oder es wird auf das arithmetische Mittel bzw. den Median über die Pixelwerte zurückgegriffen. Bei der Auswertung von auf Basis fluoreszierend leuchtender Marker akquirierter Bilder ist zur richtigen Deutung jedoch eine Berücksichtigung der Messeinrichtung nötig. Eine weitere Schwierigkeit sind fluoreszente Strahlungen des Hintergrundes sowie ein oft hohes Rauschen im aufgezeichneten Bild. Eine genauere Betrachtung sowie eine Checkliste zu den Besonderheiten der Quantifizierung von Fluoreszenzbildern finden sich in [176].
5 Merkmalsauswahl
Bei der Merkmalsauswahl werden die extrahierten Merkmale für die Klassifikation vorbereitet bzw. ausgewählt. Eingangsgrößen der Modulkategorie sind alle extrahierten Merkmale . Die Ausgangsgröße ist eine reduzierte Anzahl an Merkmalen bzw. . Zu Beginn werden Merkmalswerte, welche von fehlerhaften Bilddaten wie leeren Näpfchen, zu vielen Versuchseinheiten, schlechter Beleuchtung etc. stammen, in einem Validitätstest ausgeschlossen. Hierbei kann auf einfache Schwellenwerte zurückgegriffen werden, die im Allgemeinen aus Vorwissen stammen. Wurde beispielsweise die Eigröße als Merkmal extrahiert, kann ein Bereich sinnvoller Werte bestimmt werden. Merkmale außerhalb des bestimmten Bereichs sollten verworfen werden. Sind solche Pixel ausgeschlossen, kann eine Auswahl der besten Merkmale erfolgen, denn die extrahierten Merkmale sind z.T. redundant und es kommt im konkreten Anwendungsfall auf die wirkende Störung an, welches der Merkmale eine trennstarke Information enthält. Je mehr redundante Merkmale zur Verfügung stehen, desto schwieriger wird die Entscheidungsfindung. Eine zu große Anzahl an hierbei berücksichtigten Merkmalen kann sogar zu einer Fehlklassifikation führen [40]. Wird die Auswertung in Echtzeit zur Verfügung gestellt und auf die Akquise zurückgekoppelt wie z.B. bei Roboteranwendungen, ist es schon aus Gründen der Rechenzeit notwendig, die Berechnung auf notwendige Merkmale zu limitieren.
Zur automatischen Merkmalsauswahl kommen verschiedene bekannte Methoden zum Einsatz. Beispiele sind die univariate Varianzanalyse (ANalysis Of VAriance – ANOVA) und die multivariate Varianzanalyse (Multivariate ANalysis Of VAriance – MANOVA) [3]. Die Verfahren vergleichen die Innerklassenvarianzen mit den Zwischenklassenvarianzen der Merkmale und geben so Aufschluss darüber, welches Merkmal oder welche Merkmalskombination am besten zur Unterscheidung der gewählten Klassen geeignet ist. Mit Hilfe der ANOVA wird das Merkmal identifiziert, dessen Relevanz zur Klassentrennung den höchsten Wert erreicht. Daraufhin wird das identifizierte Merkmal, mit Hilfe der MANOVA, mit allen verbliebenen Merkmalen kombiniert, die Relevanz der Merkmalskombination ermittelt und die beste Zweier-Merkmalskombination bestimmt. Der Schritt entspricht der Formel (26) und Formel (27). Es hat sich in der Praxis bei Hochdurchsatz-Untersuchungen bewährt, den Merkmalsraum auf eine solche Zweier-Merkmalskombination zu reduzieren und zur Klassifikation heranzuziehen. Eine solche Zweier-Merkmalskombination ist ein guter Kompromiss zwischen Interpretierbarkeit, Rechenzeit und Güte der Klassifikation [3, 110].
6 Auswertung und Klassifikation
Nach Auswahl geeigneter Module zur Extraktion von informationstragenden Merkmalen sind mit der formulierten Fragestellung aus Abschnitt 6 alle notwendigen Voraussetzungen für eine erfolgreiche Lösung eines Klassifikations- oder Regressionsproblems in Hochdurchsatz-Untersuchungen am Zebrabärbling gegeben. Zur Klassenzuordnung kann zumeist auf bekannte Verfahren der Klassifikation zurückgegriffen werden[110]. Entscheidend für den Erfolg ist die Bereitstellung eines informationstragenden Merkmalssatzes . Wie bei einer solchen Art von Problemstellung üblich, muss ein Kompromiss zwischen einer niedrigen Fehlerrate und einer hohen Interpretierbarkeit der Ergebnisse, sowie einem möglichst geringen Rechenaufwand gefunden werden. Die Eingangsgrößen bei dieser Modulkategorie sind die vorverarbeiteten Merkmale und die Ausgangsgrößen sind die Klassenzuweisungen der Planfaktoren bzw. der Störfaktoren (vgl. auch Formel (28)).
1 Klassifikation
Zur Durchführung der Klassifikation unbekannter Daten muss der Klassifikator zu Beginn mittels eines Lerndatensatzes angelernt werden. Die Frage nach der Anzahl an Versuchseinheiten, die hierfür notwendig ist, kann nicht pauschal beantwortet werden und hängt von den Eigenschaften und Störfaktoren der Hochdurchsatz-Untersuchung ab [110]. In den meisten Fällen sind jedoch 20 bis 50 Versuchseinheiten einer Klasse ausreichend. Für das Labeln, also das manuelle Zuordnen einer Versuchseinheit der Lerndaten zu einer Klasse, wurde eine komfortable Softwarelösung entwickelt und in das Softwarepaket Gait-CAD implementiert (vgl. Abschnitt 1), welcher dem Anwender ein zufälliges Beispiel aus dem Datensatz zeigt und die Möglichkeit bereitstellt, per Mausklick einer der vorhandenen Ausgangsklassen zuzuweisen. So kann auf schnelle Weise für eine Hochdurchsatz-Untersuchung am Zebrabärbling der Lerndatensatz kreiert werden.
Zur Klassifikation kommen vornehmlich Bayes-Klassifikatoren zum Einsatz, deren Aufgabe es ist, die Zugehörigkeit der Versuchseinheiten auf Basis der extrahierten, reellwertigen Merkmalswerte einer der Klassen aus oder diskret zuzuordnen. Mittels des Lerndatensatzes wird ein hierfür funktioneller Zusammenhang bestimmt. Der Zusammenhang wird als Diskriminanzfunktion bezeichnet und ist entweder eine Entscheidungsfunktion, die den Merkmalswerten eine Klasse explizit zuordnet, oder besteht aus Distanzen zu den Klassen, welche die Zugehörigkeit implizit ausdrücken. Es wird eine Normalverteilung der Merkmale für jede Ausgangsklasse angenommen. Die Diskriminanzfunktion wird mittels der Mahalanobis-Distanz und klassenspezifischen Kovarianzmatrizen bestimmt [100]. Im Anschluss lassen sich mittels Validierungsverfahren die Güte über unbekannte Datentupel abschätzen und die Auswirkungen zufälliger Störeinflüsse ermitteln [110].
2 Regression der Dosis-Wirkungs-Kurve
Oft ist es das Ziel, den Effekt des in der Hochdurchsatz-Untersuchung systematisch variierten Störfaktors auf einen oder mehrere Planfaktoren zu bestimmen. Bei Toxinen werden hier üblicherweise Verdünnungsreihen angelegt. Es kann auch der Effekt anderer Störfaktoren, wie z.B. Spannungen oder Temperaturen, beobachtet werden. Jede Versuchsreihe wird mit einer unterschiedlichen Konzentration (oder Dosis) ausgeführt. Voraussetzung ist, dass für jede gewählte Stufe eine ausreichende Anzahl an Versuchseinheiten präpariert wurde. Die Klassifikation erfolgt dabei nacheinander für jede der gewählten Konzentrationsstufen und es wird die Klassenzugehörigkeit aller Versuchseinheiten geschätzt. Wird die beobachtete Wirkung durch den variierten Störfaktor stimuliert, so wird in den meisten Fällen eine kontinuierliche Zunahme des Effekts erwartet. Die Konzentration wird von einem niedrigen Effekt-Niveau zu einem hohen Effekt-Niveau verlaufen (vgl. Abb. 10). Die Dosis-Wirkungs-Kurve folgt typischerweise einer Sigmoidfunktion, welche mittels Regression an die Messwerte angepasst wird. Das entstehende Optimierungsproblem ist parameternichtlinear und wird numerisch gelöst.
[TABLE]
Hier ist der Wert bezüglich des untersuchten Effekts (meist in Prozent), der niedrigste bzw. höchste ermittelte Wert des Effekts, der Vektor enthält die Konzentrationen und ist der Absolutwert der Steigung der Sigmoidfunktion [37]. bezeichnet die Wendestelle der Kurve, welcher einer Konzentration/Dosis zugeordnet wird. Der Parameter wird als Hill-Koeffizient bezeichnet. Für den Fall, dass steigende Konzentrationen die Wirkung hemmen, wird der Parameter negativ und es ergibt sich ein abfallender Verlauf der Kurve in Abb. 10. Die Wirksamkeit auf den gesuchten Effekt lässt sich am -Wert ablesen. Entscheidend für den Erfolg der Methode ist jedoch, dass sich der betrachtete Effekt bei der Variation des Planfaktors auch einstellt. Sollte sich der Effekt nicht einstellen, scheitert die Regression und es muss ggf. eine Anpassung des Versuchsplanes erfolgen.
7 Präsentation
Entscheidend für den Erfolg der Hochdurchsatz-Untersuchung ist es, die Präsentation des Ergebnisses derart zu gestalten, dass die eingangs gestellte biologische Frage möglichst direkt beantwortet wird. Ist das nicht unmittelbar möglich, so muss versucht werden, möglichst exakte Hinweise zu liefern. Biologische Wirkzusammenhänge sowie die Komplexität der Auswertungskette machen es notwendig, nicht nur das Endergebnis, sondern auch den Lösungsweg transparent darzustellen. Hierzu ist es wichtig, auch Zwischenergebnisse jedes Moduls nachvollzieh- und interpretierbar darstellen zu können. Eingangsgrößen der Modulkategorie Präsentation sind die Klassifikationsergebnisse bzw. . Ausgangsgrößen sind die aufbereiteten Daten in diverser Form (vgl. Tabelle 2) sowie die Archivierung der Untersuchungsergebnisse.
Ist die Fragestellung beispielsweise die Suche nach der Effekt-Konzentration 50 (EC50), bei der ein gesuchter Effekt bei 50% der Versuchseinheiten auftritt, so ist das Ergebnis der Hochdurchsatz-Untersuchung klar formulierbar. Entweder die Regression der Messwerte konvergieren bezüglich der Dosis-Wirkungs-Kurve und die gesuchte Konzentration EC50 lässt sich ermitteln oder die gewählten Konzentrationsreihen müssen angepasst werden. Ein möglichst genauer Hinweis für eine solche Anpassung kann durch die Darstellung der Klassifikationsergebnisse in Form eines Histogramms gegenüber der Konzentration erfolgen. Andere Fragestellungen können nicht direkt beantwortet werden, sondern es kann lediglich ein Hinweis durch die Daten gegeben werden, der von Experten gedeutet werden muss. Um einen guten Überblick über alle Daten zu erhalten, sind automatisch generierte Reportdateien ein geeignetes Mittel. Solche fassen für jede Larve oder jede Platte wichtige Ergebnisse übersichtlich zusammen.
Die beste Präsentationstechnik ist daher abhängig von der durchzuführenden Analyse zu wählen. In Tabelle 2 ist eine Auswahl solcher Techniken über bestimmten Problemstellungen aufgelistet, die sich bei Hochdurchsatz-Untersuchungen bewährt haben. Die Aufzählung ist keinesfalls erschöpfend. Eine etwas allgemeinere Aufzählung der genannten und weiterer Präsentationstechniken findet sich in [110]. Die Tabelle ordnet einer Art der Analyse jeweils eine mögliche Präsentationstechnik zu. In der Bildverarbeitung sind beispielsweise Merkmalsbilder, d.h. Bilder, die typische Bildinhalte in Form von Merkmalen repräsentieren und aus den Rohdaten (Rohbildern) berechnet werden, nützlich (vgl. Abschnitt 3). Auch eine Überlagerung solcher Merkmalsbilder mit den Rohdaten ist oftmals sehr aussagekräftig (vgl. z.B. Abb. 21). Ein weiteres Beispiel ist die Präsentation des Ergebnisses aus dem Anlernen eines Klassifikators. Das Ergebnis kann z.B. eine Diskriminanzfunktion sein. Hier eignet sich ein Scatterplot über den Lerndaten mit der Überlagerung der Diskriminanzfunktion. So kann bereits schon durch Anschauen des Ergebnisses eine Aussage über die Güte des Klassifikators getroffen werden (Ein Beispiel findet sich in Abb. 8).
8 Bewertung
Der in Kapitel 2 vorgestellte Modulkatalog bietet eine Auswahl an neuen (wie z.B. Abschnitt 2 und Abschnitt 1) sowie bewährten Methoden (z.B. Abschnitt 1) für die Bildanalyse in Hochdurchsatzsystemen am Beispiel des Zebrabärblings. Je nach den Gegebenheiten des zu untersuchenden Nutzsignals und akquirierten Bildstroms ist es nun für eine Vielzahl von Versuchen möglich, passende Methoden auszuwählen und zu einer leistungsfähigen Auswertungskette zusammenzufügen. Der Katalog deckt dabei alle Verarbeitungsschritte von den Rohdaten bis hin zur Präsentation und Archivierung ab. Die in Abb. 1 übersichtlich nach Reihenfolge der Abarbeitung aufgelisteten Methoden sind vorzugsweise nach dem bereits in Abschnitt 6 vorgestellten Ablaufdiagramm auszuwählen und im Hinblick auf die Erfüllung der in Abschnitt 3 eingeführten Anforderungen im Zusammenspiel mit den anderen Versuchsparametern zu prüfen. Der modulare Aufbau ermöglicht zudem das leichte Ergänzen weiterer, an bisher unbekannte Problemstellungen angepasste Methoden. Die folgenden Kapitel zeigen die exemplarische Implementierung und Anwendung des erarbeiteten Konzeptes und des Modulkataloges.
Kapitel 3 Implementierung und Skalierung
1 Übersicht
Ziel der Implementierung für Hochdurchsatz-Untersuchungen ist es, die vorgestellten Module lauffähig umzusetzen. Die Implementierung soll möglichst einfach und anwenderfreundlich sein und somit allen Beteiligten der interdisziplinären Projekte zur Verfügung stehen. Des Weiteren soll Einfluss auf die Parameter bestehen und sowohl die Bilddaten als auch die zugehörigen Repräsentationen, Faktoren und Klassen müssen einsehbar und anschaulich präsentierbar sein. Ein Filtern der Daten auf Basis der Faktoren ist ebenso unverzichtbar wie die direkte Ausführbarkeit der Bildverarbeitungsalgorithmen. Zum Beispiel kann es von Interesse sein, alle Bildsequenzen einzusehen, die mittels eines bestimmten Mikroskops aufgenommen wurden oder alle Merkmalswerte eines bestimmten Merkmales, welches an einem bestimmten Tag aufgenommen wurde, zu plotten. Die Bilddaten werden meist auf einem zentralen, über eine Netzwerkverbindung angeschlossenen Server gespeichert und sollten für eine schnelle, parallele Berechnung auf mehrere Computer (sog. Clients) verteilbar ausgeführt werden können. Eine Parallelisierung wiederum erfordert eine zusätzliche Möglichkeit, die Teilergebnisse zu fusionieren. Der schnelle direkte Zugriff auf alle Methoden, Daten und Klassenzugehörigkeiten ist wichtig für ein gutes Verständnis des Datensatzes und zur Kontrolle auf Inkonsistenzen. So kann z.B. das Auflösen von Daten nach Positionen in der Mikrotiterplatte neue Störfaktoren aufzeigen. Aufgrund der interdisziplinären Problemstellung ist es zudem wichtig, dass die Auswertung sowie eine Anpassung der Parameter auf neue Datensätze weitgehend auch ohne Expertenwissen auf dem Gebiet der Informatik (z.B. von einem Biologen) ausführbar sind. Die Datentypen sind hierbei sehr heterogen, und es sind jeweils Bilddaten, Merkmale (und Zeitreihen) und Metadaten zuzuordnen und neu generierte Daten zu speichern. Die Bilddaten müssen prozessiert werden, es muss bekannt sein, mit welchem Algorithmus, welche Zwischenergebnisse erstellt wurden und wie die Einzelversuche miteinander zu vergleichen sind. Des Weiteren muss die Berechnung schnell erfolgen und die Ergebnisse müssen präsentierbar sein. Ein weiterer Aspekt ist die Archivierung. Dabei müssen nicht nur die Versuchsdaten und Ergebnisse reproduzierbar abgelegt werden, sondern auch die verwendete Version der Algorithmen und die gewählten Parameter archiviert werden.
Um die genannten Aufgaben zu erfüllen, wurde für die vorliegende Arbeit eine neue grafische Oberfläche (GUI) erstellt und die bereits bestehende MATLAB Toolbox Gait-CAD erweitert. Skriptbasierte Lösungen wurden verworfen, da solche den Nachteil haben, dass der Zugriff auf Parameter und Optionen oft kryptisch ist und eine lange Einarbeitungszeit erfordert. In einer GUI kann jeder Parameter mit entsprechenden Hinweisen versehen werden. Auch ist eine GUI oft selbsterklärend oder die Auswirkung einzelner Optionen kann durch den Nutzer leicht in Erfahrung gebracht werden. Zudem müssen die Ergebnisse im Merkmalsraum oder die Merkmalsbilder ohnehin in einer grafischen Ausgabe dargestellt werden.
Zusammenfassend kann für die Implementierung gefordert werden, dass sie bezugnehmend auf Abb. 1b und die Kategorien des Modulkatalogs gemäß Abb. 1
die Einzelversuche verknüpft mit
- •
den zugehörigen Faktoren,
- •
dem Bildstrom,
- •
den Zwischenergebnissen,
- •
der Repräsentation des Nutzsignals
(Nutzsignalzeitreihen bzw. Nutzsignalmerkmale),
- •
der Zuordnung zu den Ausgangsklassen. 2. 2.
Zugriff auf die Datenverarbeitung und deren Parameter erlaubt, 3. 3.
die Berechnung skalierbar macht, 4. 4.
die Ergebnisse präsentiert und 5. 5.
die Untersuchung und Ergebnisse archiviert.
Im Folgenden wird zu Beginn die Umsetzung der GUI und die Implementierung der Algorithmen beschrieben. Daraufhin wird auf die Möglichkeit zur Skalierung und zum verteilten Rechnen, wie es zum schnellen Berechnen der Daten notwendig ist, eingegangen.
2 Umsetzung und Methoden
Jede Hochdurchsatz-Untersuchung wird als ein abgeschlossenes Projekt betrachtet. Ein Projekt enthält für jede Versuchseinheit eine Sammlung an Daten oder Verlinkungen (vgl. Abb. 1). Eine Verlinkung ist eine Referenzierung auf den tatsächlichen Speicherort einer Datei. Das bedeutet, dass die Bilddaten nicht physisch im Projekt gespeichert werden, sondern lediglich auf die Datei verwiesen wird. Durch die Verweise bleiben die Projekte handlich, es entstehen keine mehrfachen Kopien der Bilddaten und es ist dennoch der direkte Zugriff auf die Daten über die Verlinkung gegeben. Eine solche Sammlung wird für jede Versuchseinheit im Folgenden Datentupel genannt. Die Daten in einem Datentupel lassen sich in drei Gruppen einteilen: die Faktoren, die Bilddaten und die zu den Bilddaten gehörige Repräsentation des Nutzsignals. Mit der Repräsentation ist die jeweilige Quantifizierung des Nutzsignals aus dem Bildstrom bezeichnet, wie sie in Kapitel 2 durchgeführt wurde. Ein Projekt enthält zu Beginn nicht alle notwendigen Daten, sondern es wird durch die Methoden eine Reihe von Daten erzeugt, welche schließlich die Klassenzuweisung ermöglicht. Alle Daten lassen sich zu jedem Zeitpunkt präsentieren. Die Faktoren bestehen aus den Stör- und Planfaktoren sowie geschätzten Klassenzugehörigkeiten. Die Bilddaten sind der akquirierte Bildstrom und die Repräsentation deren Quantifizierung.
Bei Projekterstellung werden sowohl die Bilddaten als auch die zugehörigen bekannten Störfaktoren eingelesen. Die Störfaktoren werden in einem solchen Zusammenhang auch als Metadaten bezeichnet und sind üblicherweise entweder im Dateinamen und bzw. oder in einer zugehörigen Metadatei gespeichert. Wie in Abb. 1 dargestellt, verlinkt das dargestellte Projekt Bilddaten und enthält Faktoren sowie Repräsentationen der Bilddaten (Zeitreihen und Merkmale). Auf das Projekt lassen sich Methoden anwenden. Die zur Verfügung stehenden Methoden sind entweder bereits in Gait-CAD (vgl. Abschnitt 1) integrierte Funktionalitäten oder die Implementierung der Module aus Kapitel 2. Die Methoden lassen sich in drei Gruppen einteilen:
Methoden zum Prozessieren 2. 2.
Methoden zum Klassifizieren 3. 3.
Methoden zum Präsentieren.
Dabei bezeichnet der Begriff Prozessieren alle Berechnungen zur Ermittlung der Merkmale, die das Nutzsignal repräsentieren, somit also die Ermittlung von aus dem Bildstrom (vgl. Abschnitt 5 bzw. Abb. 9). Die Methoden müssen dabei nicht zwingend auf die gesamten Daten angewandt werden, sondern es besteht die Möglichkeit, die Daten anhand der Faktoren zu filtern.
Nach dem Einlesen steht somit ein Projekt zur Verfügung, welches bereits zum Erkunden des Datensatzes verwendet werden kann. So lassen sich (je nach aufgezeichneten Metadaten) beispielsweise alle Bilddaten eines bestimmten Aufnahmedatums oder Laboranten filtern und darstellen. Bei der Repräsentation der Bilddaten handelt es sich immer um eine Quantifizierung. Die Quantifizierung ist Ergebnis der Bildverarbeitung und kann mit Hilfe der Benutzeroberfläche auf alle Daten angewandt werden. Ebenso ist es möglich, die Daten innerhalb der Oberfläche mittels der Faktoren zu filtern. Nach dem Prozessieren steht die Quantifizierung in Form von Fisch-Informationsmerkmalen zur Verfügung. Hierbei werden auch weitere Faktoren erzeugt. Beispielsweise wird gespeichert, ob die Bildverarbeitung erfolgreich war oder nicht. Sollte die Bildverarbeitung z.B. aufgrund von Fehlern oder Inhomogenitäten in den Bilddaten gescheitert sein, so können solche Datentupel von der späteren Verarbeitung ausgeschlossen werden. Zwischenschritte des Prozessierens, wie etwa Zeitreihen oder Merkmalsbilder, können gespeichert und präsentiert werden. Bei Bildern als Ergebnis der Berechnung wird wiederum nur ein Link zu den Bildern im Projekt gespeichert und die Datei physisch auf dem Datenspeicher abgelegt, während die Werte der berechneten Fisch-Informationsmerkmale und Fisch-Informationszeitreihen vollständig im Projekt abgelegt werden. Da es sich hierbei pro Bild, Merkmal und Abtastzeitpunkt im Normalfall um nur einen Wert handelt, bleibt die Größe eines Projektes auch bei einer großen Anzahl an Datentupeln überschaubar111Typische Projektgröße: ca. 9 KB pro Datentupel. Jeder Zwischenschritt lässt sich präsentieren und mittels der Faktoren filtern bzw. gegen die Faktoren plotten (beispielsweise in Histogrammen). Das Filtern un Plotten ist sowohl für Merkmalsbilder als auch für Zeitreihen und Merkmale möglich.
Da zur Erstellung eines Klassifikators ein Lerndatensatz benötigt wird, muss für dessen Erstellung zumindest für einen Teil der Datentupel die Klassenzugehörigkeit der Planfaktoren bekannt sein. Da die Klassenzuordnung von Experten anhand der Bilddaten erfolgt, wurde eine Funktionalität implementiert, die es ermöglicht, die zugehörigen Bilder oder Bildsequenzen von Datentupeln nacheinander anzeigen zu lassen und die Klassenzuordnung von Hand vorzunehmen. Der Vorgang wird als Labeln bezeichnet und kann in zufälliger Reihenfolge oder der Reihe nach erfolgen. Es besteht zusätzlich die Möglichkeit, die Klassenzugehörigkeit aus einer Datei einzulesen, sollte die Information über die Daten von einem Experten z.B. bereits in einer Excel-Datei abgelegt worden sein. Die Information wird als weiterer Faktor den Bildern zugeordnet und abgespeichert. Anhand der bereits quantifizierten Bilddaten und der neuen Information durch das Lablen ist es nun möglich, einen Klassifikator zu erstellen, der auf alle unbekannten Daten angewandt werden kann. Ist ein solcher Klassifikator z.B. anhand von Kontrollen erstellt worden, lässt sich der Klassifikator exportieren und in andere Projekte importieren. Ein solcher Export ermöglicht, unter der Voraussetzung konsistenter Datensätze, die Klassifikation weiterer Projekte ohne die Notwendigkeit eines erneuten Labelns. Nach der Anwendung des Klassifikators sind alle Schritte abgeschlossen und können präsentiert werden. Es wurde zudem eine Funktionalität implementiert, die es gestattet, ein PDF-Dokument zu generieren, das alle wichtigen Daten in Form eines Reports übersichtlich zusammenstellt.
3 Skalierung
Die große Anzahl an Einzelversuchen, welche in hohem Tempo in automatisierten Mikroskopen akquiriert werden, macht eine ebenso schnelle Datenverarbeitung notwendig. Die angewandte Methode zur Skalierung setzt ein schnelles lokales Datennetzwerk (LAN) voraus, ohne welches das einfache Übertragen der Daten mehr Zeit in Anspruch nimmt als sich durch verteiltes Rechnen einsparen lässt. Für die Datenübertragung stand bei Durchführung der vorliegenden Arbeit eine theoretische Übertragungsrate von 1000 Megabit/s (Gigabit-Ethernet) zur Verfügung. Das Prinzip der hier angewandten verteilten Berechnung ist in Abb. 2 dargestellt.
Eine Anzahl an Mikroskopen zeichnet parallel die Bildströme auf und kopiert die Rohdaten inkl. der Metadaten auf einen zentralen Datenspeicher. Auf den Datenspeicher greifen einzelne Computer (Clients in Abb. 2 als PC 1 bis PC bezeichnet) zu. Auf den Clients läuft jeweils eine Instanz der Bildverarbeitung ab. In der vorliegenden Arbeit ist die Instanz auf den Clienten entweder das Werkzeug Gait-CAD oder die Bildverarbeitungsoberfläche PIMP (vgl. Abschnitt 4). Da beim Einlesen, Durchsehen und Berechnen der Bilddaten mehr als einmal auf die Bilddaten zugegriffen werden muss, hat es sich als sinnvoll erwiesen, auf jedem Client eine lokale Kopie der zu prozessierenden Daten abzuspeichern und nach erfolgreicher Berechnung lediglich die Änderungen zurück auf den Server zu speichern. Hierfür wurde ein Programm der Firma Microsoft namens Synctoy ver. 2.1 eingesetzt, welches sich automatisiert mit Skripten steuern lässt und für die Synchronisation über lokale Netzwerkstrukturen spezialisiert ist. Jeder Client erstellt in einer eigenen Instanz, wie im vorangegangenen Kapitel beschrieben, eine oder mehrere Projektdateien. In der Praxis hat es sich bewährt, je Mikroskopdatensatz eine Projektdatei anzulegen. Die aufbereiteten Daten (Merkmalsbilder etc.) werden von den Clients auf den Datenspeicher zurückgeschrieben und die Projektdateien werden nacheinander fusioniert. Wichtig ist hierbei, dass die Referenzierung auf die Daten nicht absolut, sondern relativ erfolgt und auf den Clients die gleiche Verzeichnisstruktur beibehalten wird wie auf dem Datenspeicher. Ein anderes Vorgehen führt zu fehlerhaften Referenzierungen der Bilddaten nach der Fusion. Nach Abschluss der Berechnung, Synchronisation und Fusion kann das finale Gesamtprojekt weiterverarbeitet werden. Üblicherweise wird ein Klassifikator geladen oder erstellt, die Klassenzuweisung wird durchgeführt und die Ergebnisse werden visualisiert.
Um sicherzustellen, dass alle Clients die identischen Arbeitsschritte selbstständig durchführen, wurde eine Kombination aus Makro- und Batchdateien erstellt. Eine Makrodatei enthält eine feste Abfolge von Befehlen, welche an einem (Teil)Projekt durchgeführt werden. Eine Batchdatei ist in der Lage, eine definierte Anzahl an Projekten zu öffnen und Makrodateien darauf anzuwenden. Die Makrodateien enthalten für jeden Mikroskopdatensatz die gleiche Vorgehensweise bei der Berechnung der Repräsentationen für die Bilddaten. Der einzige Unterschied von Client zu Client sind die zugeordneten Bilddaten je Client. Jeder Client enthält somit für jeden Mikroskopdatensatz einen Satz Makrodateien, welche nacheinander abgearbeitet werden. Die Aufspaltung in Makro- und Batchdateien ermöglicht eine erleichterte Fehlersuche. Es wird während der Ausführung jeweils eine Ereignisprotokolldatei (Logdatei) erstellt, welche für jeden Makro- und jeden Batchbefehl einen Eintrag erhält, ob die Ausführung erfolgreich war oder nicht. Durch den vollständig automatisierten Ablauf des o.g. Prozesses muss der Anwender in den Batchdateien nun lediglich die Speicherorte der Bilddateien anpassen. Die Erstellung der Projekte und des Gesamtprojektes erfolgt dann automatisch durch die Abfolge der beschriebenen Batch- und Makrodateien. Das Erstellen der Batchdateien ist im Gegensatz zur Projekterstellung nicht vollständig grafisch implementiert, da in den Dateien lediglich die Referenzierungen zu den Bilddaten angepasst werden müssen und ein solch geringer Aufwand an Anpassung den zusätzlichen Aufwand einer grafischen Umsetzung nicht rechtfertigt. In der Implementierung wurde das parallele Rechnen auf mehreren Kernen eines modernen Prozessors ausgenutzt, welches, unter Einhaltung diverser Restriktionen, direkt von MATLAB mittels des MATLAB-Befehls parfor zur Verfügung steht. Zur Archivierung ist es ausreichend, die einzelnen Projektdateien und das Gesamtprojekt inkl. aller verwendeter Batch- und Makrodateien auf den Datenspeicher zu kopieren.
4 Werkzeuge
1 Programmpaket Gait-CAD
Am Forschungszentrum Karlsruhe werden seit 1998 Algorithmen zur Klassifikation entwickelt und aus der Toolbox KAFKA (Karlsruher Fuzzy Modellbildungs-, Klassifikations- und datengestützte Analyse-Toolbox) entstand ab dem Jahr 2001 die auf MATLAB basierende Toolbox Gait-CAD (Gait: englisch für Gang und CAD: Computer Aided Diagnosis) [114, 115]. Ab dem Jahr 2006 wurde Gait-CAD mit einer grafischen Benutzeroberfläche als freie Software im Internet unter der GNU General Public License (GNU GPL) veröffentlicht [26, 112, 111, 164]. Die Anwendungsgebiete der Toolbox Gait-CAD haben sich von anfänglich ausschließlicher Ganganalyse in weitere Felder erstreckt, unter anderem für die vorliegende Arbeit auf das Feld der Bildverarbeitung mit zu Beginn Einzelbildern und schließlich auch Bildsequenzen.
Die Funktionalitäten von Gait-CAD wurden im Rahmen der vorliegenden Arbeit um Bildverarbeitungsroutinen und für die Verarbeitung von Bildströmen erweitert. Es stehen nun eine Reihe der vorgestellten Module in Form von Plugins zur Verfügung, die sich auf die Datensätze anwenden lassen. Die umgesetzten Module sind in Abb. 4 hervorgehobenen und wurden sowohl für Einzelbilder als auch für Bildsequenzen implementiert. Alle dargestellten Module sind entweder in Form von Plugins verfügbar oder direkt von der GUI zu starten. Die bereits erwähnte Funktionalität zum Labeln wurde ebenfalls ergänzt. Die Auswertung des Anwendungsbeispiels Fisch Embryo Test (FET), vgl. Kapitel 4, wurde vollständig in Gait-CAD integriert und steht „auf Knopfdruck“ bis hin zur Erstellung eines automatischen Reports in Form eines PDF-Dokuments zur Verfügung. Die Abb. 4 zeigt einige Screenshots der Funktionalitäten. Im Vordergrund rechts ist eine EC-Registrierung zu sehen. Im Vordergrund links ist ein Scatterplot über zwei Merkmale mit errechneter Diskriminanzfunktion dargestellt. Im Hintergrund ist eine beispielhafte Auswahl von Datentupeln sowie die Bedienoberfläche von Gait-CAD zu sehen.
Für das Anwendungsbeispiel des Photomotor Response Screen wurden Gait-CAD Projektdateien für alle Einzelversuche erstellt und durch Fusion in ein die gesamte Untersuchung umfassendes Projekt überführt. Innerhalb eines solchen Projektes ist es daraufhin möglich, Klassifikationen, z.B. bezüglich verschiedener Bewegungsmuster, durchzuführen. Die Bildverarbeitung erfolgt hier allerdings aus verschiedenen Gründen außerhalb von Gait-CAD wie im folgenden Abschnitt beschrieben wird (vgl. Abschnitt 2).
2 Grafische Oberfläche PIMP
Die ebenfalls in MATLAB entworfene Auswertungseinheit PIMP ist als grafische Benutzeroberfläche implementiert und enthält Routinen zum komfortablen Einlesen der Videosequenzen, der Auswahl und der manuellen Adaption von Auswerteparametern sowie dem Ausführen der Berechnung anhand der gewählten Parameter. Die Bildsequenzen lassen sich sowohl einzeln als auch in Gruppen einlesen und prozessieren. Vor der Durchführung der Berechnung wird automatisch eine Vorschau erstellt, bei der das Ergebnis der Segmentierung direkt ersichtlich ist und anhand derer Parameter visuell, auch ohne Expertenwissen, angepasst werden können. Abbildung 6 zeigt einige Screenshots der Oberfläche. Im Vordergrund ist ein Einzelversuch mit den Ergebnissen des Trackings und der Bewegungsklassifikation (vgl. Abschnitt 3) dargestellt. Dahinter ist eine Übersicht mit über 50 solcher Einzelversuche in Form einer Heatmap dargestellt. Darauf folgt ein Screenshot des Report-Generators sowie schließlich ein Screenshot des Hauptteils der Oberfläche, in welchem sich die Daten der Versuche auswählen und alle Funktionen starten lassen.
Eine neue Oberfläche wurde entworfen, da sie außerhalb des Gesamtpakets Gait-CAD eine Reihe von Vorteilen bietet. Die Oberfläche ist übersichtlich und beschränkt sich auf die für den PMR notwendigen Parameter. PIMP wurde so konzipiert, dass es auch ohne eine vollständige MATLAB-Installation (mit den entsprechenden MATLAB-Runtime-Paketen) lauffähig ist. Zusätzlich dazu ist es plattformunabhängig und sowohl auf WINDOWS wie auch auf MAC/OS und UNIX Betriebssystemen lauffähig. Das ermöglicht die Ausführung auf beliebig vielen Computern, welche lokal, z.B. direkt neben den aufzeichnenden Mikroskopen, platziert sind und spart das „doppelte“ Kopieren wie bei der auf Gait-CAD basierten Lösung, bei welcher vom Mikroskop auf den Datenspeicher, von dem Datenspeicher auf den Client und schließlich wieder zurück kopiert werden muss. Lediglich die fertigen Daten werden zur Archivierung auf den Datenspeicher einmalig abgelegt. Damit wird die neue Softwarelösung auch attraktiv für Labore, die weder über ein schnelles lokales Netzwerk noch über große ständig erreichbare Speicherkapazitäten verfügen.
The reference list from the paper itself. Each links out to its DOI / PubMed record.
- 1[1] Ackerman, F. ; Massey, R. ; Ministerråd, N. ; Råd, N. : The true costs of REACH . Nordic Council of Ministers, 2004.
- 2[2] Adams, R. ; Bischof, L. : Seeded region growing. Pattern Analysis and Machine Intelligence, IEEE Transactions on 16 (1994) 6, S. 641–647.
- 3[3] Ahrens, H. ; Läuter, J. : Mehrdimensionale Varianzanalyse: Hypothesenprüfung, Dimensionserniedrigung, Diskrimination bei multivariaten Beobachtungen . Berlin: Akademie-Verlag, 1974.
- 4[4] Alshut, R. : Entwicklung eines Bildverarbeitungsalgorithmus zur automatisierten Evaluierung eines Hochdurchsatzexperimentes mit toxikologisch behandelten Modellorganismen . Diplomarbeit, Karlsruher Institut für Technologie (KIT), 2008.
- 5[5] Alshut, R. ; Legradi, J. ; Liebel, U. ; Yang, L. ; van Wezel, J. ; Strähle, U. ; Mikut, R. ; Reischl, M. : Methods for automated high-throughput toxicity testing using zebrafish embryos. Lecture Notes in Artificial Intelligence 6359 (2010), S. 219–226.
- 6[6] Alshut, R. ; Legradi, J. ; Mikut, R. ; Strähle, U. ; Reischl, M. : Robust identification of coagulated zebrafish eggs using image processing and classification techniques. In: Proc., 19. Workshop Computational Intelligence , S. 9–21, 2009.
- 7[7] Alshut, R. ; Mikut, R. ; Legradi, J. ; Liebel, U. ; Strähle, U. ; Bretthauer, G. ; Reischl, M. : Automatische Klassifikation von Bildzeitreihen für toxikologische Hochdurchsatz-Untersuchungen. at-Automatisierungstechnik 59(5) (2011), S. 259–268.
- 8[8] Aquino, D. ; Schönle, A. ; Geisler, C. ; v Middendorff, C. ; Wurm, C. ; Okamura, Y. ; Lang, T. ; Hell, S. ; Egner, A. : Two-color nanoscopy of three-dimensional volumes by 4Pi detection of stochastically switched fluorophores. Nature Methods 8 (2011) 4, S. 353–359.
