Opowiedz nam więcej o misji Chan Zuckerberg Biohub i swojej roli w tym przedsięwzięciu.
Jestem informatyczką w Chan Zuckerberg Biohub (CZB), z wykształceniem z zakresu epidemiologii chorób zakaźnych. CZB jest organizacją badawczą typu non-profit, której celem jest wyznaczanie standardów współpracy naukowej – to tutaj liderzy w dziedzinie nauki i technologii spotykają się, aby dokonywać odkryć i wspierać odważną wizję leczenia, zapobiegania i zarządzania chorobami w tym stuleciu. Naszym celem jest zrozumienie fundamentalnych mechanizmów leżących u podstaw choroby i opracowanie nowych technologii, które doprowadzą do skutecznej diagnostyki i efektywnej terapii. Jest to regionalne przedsięwzięcie badawcze o zasięgu międzynarodowym, w ramach którego wiodące instytucje – Uniwersytet Kalifornijski San Francisco (UCSF), Stanford i Berkeley – połączyły siły z CZB w celu przyspieszenia działań, z korzyścią dla ludzi na całym świecie.
Czy możesz nam opowiedzieć o swoich nowych badaniach dotyczących COVID-19?
Jedną z rzeczy, które sprawiają, że COVID-19 jest trudny do wykrycia jest to, że nie wszyscy jego nosiciele wykazują objawy – z tego względu byłam bardzo zainteresowana oszacowaniem rzeczywistej liczby infekcji. Genom wirusa mutuje w dość stałym tempie, ponieważ rozprzestrzenia się wśród całej populacji, nawet gdy robi to bezobjawowo. Oznacza to, że za każdym razem, gdy nowa osoba ulega zakażeniu, wirus ulega lekkiej zmianie – i ten proces następuje w dość stałym tempie, podobnym do szybkości rozprzestrzeniania się. Tak więc nawet jeśli nie jesteśmy w stanie przetestować całej populacji, tak długo, jak wiemy jak szybko wirus mutuje, możemy wnioskować, jaka jest prawdopodobna liczba niewykrytych przypadków przeniesienia wirusa pomiędzy osobami, które przeprowadziły test diagnostyczny. Do celów tych badań stworzyłam model matematyczny, aby oszacować liczbę niewykrytych infekcji w 12 miejscach w Azji, Europie i Stanach Zjednoczonych.
Jakie były wnioski?
Stwierdziłam, że w tych miejscach nie wykryto jeszcze wielu zakażeń. W Szanghaju odsetek niewykrytych infekcji wyniósł ponad 90 procent. Zauważyliśmy również, że w miarę upływu czasu następuje znaczna zmiana prawdopodobieństwa wykrycia przypadku. Gdy wirus trafił po raz pierwszy do tych 12 miejsc, ponad 98 procent zakażeń nie zostało wykrytych w ciągu tych pierwszych kilku tygodni, co wskazuje, że epidemia już się rozpoczęła na dobre, jeszcze przed popularyzacją intensywnych testów.
Jakie są praktyczne efekty tych badań, w czym mogą nam one teraz pomóc?
Wiedza o tym, ile osób zostało zakażonych, ma istotne znaczenie dla zrozumienia mechanizmu pandemii. Nawet jeśli już liczba potwierdzonych zakażeń jest bardzo wysoka, zrozumienie tego, ile ich realnie jest może pomóc nam dowiedzieć się, jak duża część populacji została dotknięta wirusem. Liczby te są również przydatne do oceny skuteczności systemów nadzoru zdrowia publicznego. Aby zrozumieć, jak dobrze działają strategie testowania, można przyjrzeć się zmianom w proporcji niewykrytych infekcji w tym czasie. Im więcej badań i analiz tras osób zakażonych jest przeprowadzanych, tym mniejsza jest liczba niezdiagnozowanych zakażeń. Informacje te są również przydatne przy opracowywaniu strategii skutecznych działań i interwencji w zakresie zdrowia publicznego, ponieważ wskazują miejsca w danym kraju lub w danym stanie, które mogłyby skorzystać na przeprowadzaniu większej liczby testów.
Jaką rolę odgrywają usługi chmury AWS w pomaganiu zespołowi w rozwijaniu jego badań?
W informatyce wykonywanych jest wiele obliczeń lub procesów jednocześnie. Pozwala to na podzielenie dużych problemów na wiele mniejszych, które mogą być rozwiązywane w tym samym czasie. Amazon Web Services (AWS) zapewnił wsparcie obliczeniowe, a także zaoferował ekspertyzę zespołu AWS Professional Services, która umożliwiła zwiększenie skali tej analizy za pomocą Amazon Elastic Compute Cloud (Amazon EC2) i AWS Batch. Te zasoby zapewniły bazę, którą CZB może wykorzystać do kontynuacji tych prac w przyszłości dla innych zbiorów danych. Zasadniczo, każda przeprowadzana przez nas analiza zajmuje dużo czasu i jest mocno obliczeniowa. Dla każdego z 12 zestawów danych, z którymi pracowałam, musiałam przetestować tysiące różnych parametrów i użyć ich do symulacji, jak powinna przebiegać epidemia w zgodzie z tymi parametrami, a potem porównać, jak rzeczywiście wygląda sytuacja. To wielogodzinny, czasem wielodniowy proces. Dzięki wsparciu zespołu AWS Professional Services byłam w stanie lepiej skoordynować te działania, tak abym mogła prowadzić prace w rozsądnych ramach czasowych, a także prezentować raporty w przeciągu kilku dni, a nie miesięcy.
Jak konkretnie wykorzystujesz uczenie maszynowe?
Aby określić liczbę niewykrytych infekcji, użyłam modelu matematycznego opisującego jak koronawirus rozprzestrzenia się od jednej osoby do drugiej. Stworzyłam model na podstawie dostępnych danych – genomów wirusowych z każdej z 12 lokalizacji, a także informacji o ramach czasowych potwierdzonych przypadków w każdym z tych miejsc. Rezultatem działania modelu była całkowita liczba zakażeń – zarówno tych potwierdzonych, jak i niewykrytych. Model ten pomógł nam również zrozumieć kilka interesujących parametrów epidemiologicznych, takich jak liczba odtwarzania (teoretyczna liczba chorych) czy rola „superspreaderów” (chodzi o ludzi, w przypadku których zachodzi większe prawdopodobieństwo, że kogoś zakażą) podczas tej pandemii.
CZB podejmował znaczące inicjatywy w zakresie chorób zakaźnych na długo przed COVID-19. Jaki wpływ miał koronawirus na ogólną pracę organizacji?
Większość osób pracujących nad projektami dotyczącymi chorób zakaźnych w CZB w ciągu ostatnich kilku miesięcy skupiła się na testach i badaniach koronawirusa. Ponadto Biohub współpracował z UCSF i naszą siostrzaną organizacją, Inicjatywą Chan Zuckerberg, w celu przeprowadzenia testów na obecność przeciwciał oraz testów reakcji łańcuchowej polimeryzacji (PCR) wykorzystywanych do bezpośredniego wykrywania obecności antygenu. Zarówno metody laboratoryjne, jak i obliczeniowe, które Biohub opracował w odpowiedzi na epidemię koronawirusa nie tylko usprawnią nasze zrozumienie COVID-19 w krótszym czasie, ale także będą przydatne w szerszej perspektywie badania chorób zakaźnych.
Czy masz jakieś plany wykorzystania wyników tego badania?
Jestem zdecydowanie zainteresowana kontynuowaniem tego typu analiz dla różnych stanów w USA oraz ich regularnym powtarzaniem. Od czasu, gdy rozpoczęłam swoje badania po raz pierwszy, w sieci pojawiło się wiele nowych genomów wirusowych. Myślę więc, że analiza, którą wykonałabym w tym miesiącu dostarczyłaby bardziej precyzyjnych szacunków liczb infekcji niż te, które podałam w moim ostatnim artykule. W Biohubie rośnie nacisk na to, aby w najbliższych tygodniach i miesiącach w Kalifornii przeprowadzić więcej sekwencjonowań wirusowych. Docelowo chcemy udostępnić te wyniki lokalnym departamentom zdrowia publicznego, dzięki czemu będą one miały kolejną możliwość śledzenia liczby potencjalnych zakażeń, nawet jeśli nie każdy ma dostęp do diagnostyki.
Czy chciałabyś dodać coś jeszcze na temat swoich badań?
Taka ciekawostka – byliśmy w stanie określić, jak duże jest zróżnicowanie w zdolności przenoszenia się wirusa. Być może słyszeliście o koncepcji „liczby odtwarzania”, która opisuje ile dodatkowych zakażeń wywołuje każda zainfekowana osoba. Ale ta liczba jest tylko średnią – nie daje ona pełnego obrazu tego, jak zmienne są indywidualne liczby odtwarzania każdego człowieka. Jednak dzięki mojemu podejściu, opartym na informacjach z genomów, byłam w stanie określić tę zmienność w formie liczb. W badaniach oszacowałam, że około 80 procent zakażeń zostało wywołanych przez 30 procent ludzi, którzy najczęściej infekują inne osoby. Wcześniej prowadzono podobne badania w przypadku innych chorób zakaźnych – to wyniki na równi z pandemią grypy, ale nie tak ekstremalne, jak epidemia SARS w 2003 roku. Wtedy wiele przypadków SARS zostało wywołanych przez „superspreaderów”, którzy spowodowali setki zakażeń. Obecnie nadal dochodzi do takich zdarzeń, ale nie wydają się one odgrywać tak dużej roli w napędzaniu tej pandemii. Tak więc, podczas gdy istnieją jeszcze pojedyncze jednostki, które zakażają innych częściej niż przeciętny człowiek, być może ważniejsze dla rozwoju obecnej pandemii koronawirusa są wydarzenia, podczas których wielu ludzi gromadzi się w bliskiej odległości (łącznie z „potencjalnymi superspreaderami”).