Die Virtual Cell Challenge des Arc Institute: Ein neuer Ansatz zur Genmodellierung
Das Arc Institute hat die Virtual Cell Challenge ins Leben gerufen, die Teilnehmer dazu einlädt, Modelle zu entwickeln, die vorhersagen, wie das Stilllegen eines Gens eine Zelle beeinflusst, selbst in zuvor unbekannten Zelltypen. Diese Herausforderung zielt darauf ab, die Kontextgeneralisierung in der maschinellen Lernforschung zu fördern, insbesondere in der Biologie, und bietet eine spannende Gelegenheit für ML-Ingenieure, sich mit biologischen Konzepten auseinanderzusetzen.
Einführung in die Virtual Cell Challenge
Die Herausforderung fordert die Teilnehmer auf, ein Modell zu trainieren, das die Auswirkungen der Genstilllegung mithilfe von CRISPR vorhersagt. In der Welt der Atome ist es teuer, mühsam und fehleranfällig, Experimente durchzuführen. Die Virtual Cell Challenge zielt darauf ab, ein Modell zu entwickeln, das genau simuliert, was mit einer Zelle passiert, wenn wir einen bestimmten Parameter ändern. Ein solches Modell könnte die Forschung erheblich beschleunigen und die Entwicklung neuer Medikamente revolutionieren.
Trainingsdaten für die Herausforderung
Für die Herausforderung hat das Arc Institute einen Datensatz mit etwa 300.000 Profilen der Einzelzell-RNA-Sequenzierung zusammengestellt. Der Trainingsdatensatz besteht aus einer spärlichen Matrix und zugehörigen Metadaten. Insbesondere umfasst er 220.000 Zellen, von denen etwa 38.000 ungestört sind, was bedeutet, dass kein Gen mithilfe von CRISPR stillgelegt wurde. Diese Kontrollzellen sind entscheidend, da sie als Referenzpunkt dienen, um die Auswirkungen der Genstilllegung zu messen.
Modellierung der Herausforderung
Ein zentrales Problem bei der Modellierung ist die Unfähigkeit, den Zustand einer Zelle vor und nach der Stilllegung eines Gens zu messen, da das Lesen des Transkriptoms die Zelle zerstört. Dies führt dazu, dass wir eine Population von Basalzellen als Referenzpunkt verwenden müssen. Die Herausforderung besteht darin, das wahre Signal der Störung von dem Rauschen zu trennen, das durch die Heterogenität der Zellen verursacht wird.
State Transition Model (ST)
Das State Transition Model ist ein relativ einfaches Transformer-Modell, das auf einer Llama-Architektur basiert. Es verwendet eine Reihe von Transkriptomen (oder SE-Embeddings) für covariate-matched Basalzellen und eine Reihe von One-Hot-Vektoren, die die Genstörung für jede Zelle darstellen. Das Modell wird darauf trainiert, die Unterschiede zwischen den beiden Wahrscheinlichkeitsverteilungen zu minimieren.
State Embedding Model (SE)
Das State Embedding Model ist ein BERT-ähnlicher Autoencoder, der darauf abzielt, bedeutungsvolle Zell-Embeddings zu erstellen. Um dies zu erreichen, wird zunächst ein bedeutungsvolles Gen-Embedding erzeugt. Die Gene werden als „Zell-Sätze“ dargestellt, wobei jedes Zell-Embedding aus den 2048 Genen besteht, die nach ihrem Ausdrucksniveau sortiert sind.
Bewertung der Modelle
Die Bewertung der eingereichten Modelle erfolgt anhand von drei Metriken: Perturbation Discrimination, Differential Expression und Mean Average Error. Die Perturbation Discrimination bewertet, wie gut das Modell relative Unterschiede zwischen Störungen aufdecken kann, während die Differential Expression misst, wie viele der tatsächlich betroffenen Gene korrekt identifiziert wurden.
Fazit und Ausblick
Die Virtual Cell Challenge bietet eine einzigartige Gelegenheit für Forscher und Ingenieure, sich mit den Herausforderungen der Genmodellierung auseinanderzusetzen. Das Arc Institute hat auch ein Colab-Notebook bereitgestellt, das den gesamten Prozess des Trainings ihres STATE-Modells erläutert. Dies erleichtert den Einstieg für Teilnehmer, die sich mit den biologischen und technischen Aspekten der Herausforderung vertraut machen möchten.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!