loading...
Dokowanie ligandu do białka

Sekcja Koła Naukowego Komputerowego Wspierania Projektów Leków

Cześć, w naszej sekcji zajmujemy się projektowaniem leków metodami obliczeniowymi.

Dowiedz się więcej

Kontekst sekcji

Dążymy do medycyny indywidualnej: budujemy workflow, które komputerowo przesiewa tysiące cząsteczek aż do progu przedklinicznego (gdzie i tak przechodzi < 0,1 %). W pierwszym zastosowaniu sprawdzamy modulatory akwaporyny-4 w kontekście Alzheimera. Równolegle tworzymy open-source'ową bibliotekę w Pythonie (stylistyką zbliżoną do PyEMMA2), scalającą najlepsze metody predykcji konformacji białek w jeden ekosystem. Gdy tylko na Polaris Hub ogłoszą kolejną edycję konkursu – startujemy.

Rendering pipeline visualization

Obecne działania projektów

Poniżej znajdziesz listę naszych bieżących projektów wraz z problemami, nad którymi obecnie pracujemy. Kliknij na projekt, aby zobaczyć szczegóły.

Stworzenie sposobu testowania tysięcy związków o potencjalnym działaniu terapeutycznym aż do etapu przedklinicznego:

Opis

Case study – opracowanie metody na paradoksalnie dobrze i źle opisanym problemie: badanie białka akwaporyny 4 w patogenezie Alzheimera.

Nasz obecny plan:

  1. Zebranie związków: zintegrować pobieranie kandydatów z PDB, PubChem, ChEMBL i własnych baz/API do jednej, deduplikowanej listy wejściowej.
  2. Wstępna analiza/klasteryzacja: oczyścić zbiór Chemmine-tool/VS, zastosować reguły (np. Lipiński, XlogP) i wybrać podzbiór do dokowania.
  3. Przygotowanie białek: przygotować AQP4 (i warianty) do symulacji: protonacja, brakujące atomy, mostki S-S, usunięcie artefaktów, wybór jednostki biologicznej i kontrola jakości geometrii.
    3a. Apo-MD (charakterystyka ruchów): wykonać serie niezależnych MD apo (±CG) i przeanalizować RMSD/RMSF, PCA oraz DCCM, aby ujawnić naturalne tryby i regiony sprzężeń.
    3b. Apo-ensemble + FES: zbudować ensemble stanów (REST2/Metadynamics + PMARLO), wyznaczyć CV, FES i MSM, a następnie wyekstrahować 10–30 reprezentantów do dalszych kroków.
    3c. Kieszenie allosteryczne: wykryć i zweryfikować przejściowe kieszenie (MDPocket/FTMap/TRAPP) i ścieżki allosteryczne (AlloSigMa/PRS/RTA) jako cele dokowania.

Tutaj jesteśmy obecnie (13/10/2025)

─────

  1. Biblioteka ligandów: połączyć związki z baz z generacją de novo (REINVENT4, LinkInvent/Mol2Mol) oraz scaffold-hopping dla wariantów chemicznych.
  2. Właściwości/ADMET: przeprowadzić QSAR/SAR i profilowanie ADMET (w tym Tanimoto/porównania chemoinform.), odrzucając chemie toksyczne lub nienadające się do BBB.
  3. Ulepszanie cząsteczek: iteracyjnie stosować bioizosterie, R-group replacement i scaffold-hopping, by podnieść selektywność i okno terapeutyczne.
  4. Autodokowanie (L1–L3): zautomatyzować protokół AutoGrid→AutoDock z kontrolą reprodukcji pozy, focused i blind, raportując TC-score vs energia i klasyfikując pozycje allo/orto.
    7a. Holo-MD stabilności wiązania: przeprowadzić niebiasowane/słabo biasowane MD kompleksów, kwantyfikując stabilność (kontakty, frakcje interakcji, trajektorie RMSD).
    7b. Analiza kontaktów/interfejsu: użyć LigPlot/fingerprintów i umbrella sampling do oceny kluczowych oddziaływań oraz wpływu na tetrameryzację/interfejs.
  5. Aktywność i punkty mocy: oszacować IC50/EC50/Ki (modelowo/in-silico) oraz wpływ na homeostazę wody i ryzyko obrzęku jako kryterium go/no-go.
  6. Kompleksy białko-białko: wykonać MD PPI AQP4±ligand, policzyć MM-GBSA/MM-PBSA i rozważyć molekuły bivalentne z linkerem, gdy pojedynczy ligand nie wystarcza.
  7. FAIR: zapewnić pełną reprodukowalność (dane, metadane, workflow, wersje oprogramowania, raporty) oraz publikowalne artefakty.

Dalszy horyzont: skalibrować pipeline na kompleksach z PDBbind z danymi eksperymentalnymi, aby ustawić progi akceptacji i walidację energii; następnie przetestować szybkie modele ML, w tym ligand-transformera (2025), jako wsparcie screeningu i porównać je z GPU-Vina na reprezentatywnych celach; wreszcie pogłębić przewidywanie konformacji (next-gen), badając metody rozszerzające przestrzeń konformacyjną (np. alternatywy do SILCS, lepsze MSA/AlphaFold-RF/rozpoznanie stanów), by zmniejszyć ryzyko dokowania do artefaktów.

Problemy

Problem 1

Przesłanki:
żeby znaleźć jakiś konkretny cel terapeutyczny, trzeba znać działanie biologiczne tego elementu w otoczeniu.

Treść:

  • biologiczne opisanie akwaporyny 4 i jej działania w szlaku syntrofiny alfa 1 w mózgu. Jak będzie to oddziaływać na tworzenie się późniejszych kanałów. Czy powinniśmy szukać elementów, które będą robić inhibicję, czy może jakoś katalizować proces transportu/tworzenia się tych białek. nie jesteśmy pewni, jak dokładnie zachowuje się ten kompleks i czy powinniśmy go zatrzymywać, czy katalizować
  • każde białko, które jest w bazie danych, musi przejść konkretne przygotowanie; jednak na naszym przykładzie nie jesteśmy pewni, czy obecna konfiguracja białka jest dobrze zrobiona, i nie jesteśmy w stanie zidentyfikować i naprawić wszystkich mostków dwusiarczkowych, żeby nie było jakiś bezsensownych grup -SH.

Problem 2

Przesłanki:
homologiczne białka powinny działać na podobnej zasadzie jak inne o znanej już funkcji, w innym znaczeniu czy organizmie.

Treść:

  • chcemy zrobić duże MSA (multi-sequence alignment), żeby stworzyć sobie nasze białko akwaporynę 4, a nie polegać na banku białek, w którym jest tylko konkretny jeden snapshot tego białka w krysztale z PDB, i konkretną sekwencję kodującą to białko, żeby następnie użyć jakichś modeli do predykcji białek; jednak nie jesteśmy w stanie powiedzieć, jak dobrze zrobić ten element, żeby wszystko, co będzie po tym, było stabilnie opisane i na przesłankach, że nasze białko nie jest widmem.
  • nie potrafimy zebrać homologów i przygotować MSA w celu porównania konserwacji reszt orto- vs allosterycznych

Problem 3

Przesłanki:
do naszego badania musimy (albo nie) sprawdzić metodę SILCS (Site Identification by Ligand Competitive Saturation), ale nie ma jej obecnie nielicencjonowanej, z tego co wiemy. Musimy zrobić samemu implementację tej metody lub znaleźć narzędzie, które to zrobi.

Treść:

  • implementacja wydaje się być nieosiągalnym celem, a poszukanie działającej wersji na otwartej licencji jest bardzo trudne, choć może się tutaj mylimy

Końcowy opis

To są obecne problemy, jakie wiążą się z tym projektem. To jest bardzo mały horyzont, a sam plan jest znacznie większy oraz prowadzi do ciekawych rezultatów.

Zrobienie paczki w Pythonie jako program umożliwiający szukanie konformacji białek w sposób łączący wiele technik optymalizacyjnych do szukania najszybszej drogi przeszukania search-space'u obiektu

Opis

Obecnie mamy jedynie szkielet PoC. Pełne wdrożenie stanie się realne, gdy dopracujemy spójną teorię matematyczną obejmującą dystrybucję obliczeń, metadynamikę z różnymi rodzajami biasu oraz parametry modeli Markova.

Metoda

  1. Init/Config: wczytaj config, ustaw seedy, utwórz run_root, zdefiniuj plan transformacji (features, τ-curriculum, T_ref).
  2. Protein prep → Transform plan: przygotuj układ i listę cech (np. odległości/kontakty/RMSD), które będą liczone dla każdej ramki.
  3. REMD (krótkie przebiegi): uruchom multi-T REMD z wymianami; na starcie bias = 0 (tylko fizyka), loguj metadane każdej repliki/segmentu.
  4. DEMUX: rozdziel trajektorie po temperaturze i segmentach; zweryfikuj inwarianty (intra-T, intra-segment, ciągłość czasu) — w razie naruszeń fail-fast.
  5. Emit shards: dla każdego shardu policz cechy X, t_index, dt_ps (+ opcjonalnie energy, bias), zapisz *.npz + *.json.
  6. (Opcjonalnie) TRAM/MBAR-wagi: z energii/biasu policz w_frame do re-weightingu i ewentualnego ważenia próbek w trenowaniu CV.
  7. Bootstrap CV @T_ref: uruchom losową liniową/TICA projekcję jako CV-v0; zamroź ją jako punkt odniesienia.
  8. Budowa par (τ-curriculum): generuj pary (t, t+τ) wyłącznie intra-T/intra-segment; sampler równoważy temperatury i doboostowuje rzadkie regiony.
  9. Trening DeepTICA: ucz CV na parach (z sample_weight = w_frame, jeśli dostępne) i monitoruj VAMP-2/ITS na time-holdout; zapisuj checkpointy.
  10. Guided-REMD (pętla joint): jeśli metryki rosną, ale pokrycie przestrzeni słabe — uruchom kolejne krótkie REMD z lekkim biasem w CV, zdemuxuj i dopisz nowe shardy; wróć do kroku 8.
  11. Kryteria stopu: gdy VAMP-2 plateau oraz ITS stabilne (i/lub limit iteracji) — zamknij pętlę joint i zamroź finalny model CV.
  12. Reweight do T_ref: przelicz końcowe w_frame TRAM/MBAR i rzutuj wszystkie ramki do przestrzeni CV (Y), przygotowując dane ważone do analizy stanów.
  13. MSM @T_ref: klastruj w CV-space (ważone), zlicz przejścia → macierz przejść → ITS/CK → PCCA+; jeśli CK/ITS nie przechodzi, popraw liczbę klastrów/τ i powtórz ten krok.
  14. FES + eksport: zbuduj FES (hist/KDE w CV-space z wagami), wyznacz stany i populacje, a następnie wyeksportuj artefakty (cv_model, scaler, cv_projection, msm/*.npz, fes/*, report.html).

Problemy

Problem 1

Przesłanki:
trudno zrobić to dobrze, jeśli nie ma ewaluacji i ciągłego sprawdzania regresji czy jakości algorytmów, które robią główną pracę. Potrzebujemy solidnych podstaw, żeby udowodnić, że symulując w krótkich porcjach, zyskujemy więcej informacji.

Treść:

  • Zbudować matematyczny opis całego eksperymentu, który pokaże, jak system krótkich, wąskich symulacji kompensuje ograniczone zasoby. Tutaj jest przykład koncepcji z czatu GPT – obecnie to szkic bez aparatu matematycznego.

Końcowy opis

Reszta problemów jest zebrana w issue trackerze PMARLO, gdzie znajdziecie pełną listę zadań przybliżających paczkę do działania.

Wystartowanie w konkursie Polaris Hub na bazie Kaggle, w ktorym mozna porownac swoje metody do SOTA z branz CADD

Opis

Obecnie analizowalismy tylko modele, ktore wygraly ostatni konkurs Antiviral Competition na platformie Open Molecular Software Foundation, ASAP i Polaris.

Problemy

Problem 1

Przeslanki:
jesli chcemy zbudowac model ADMET przewidujacy wlasciwosci chemikofizyczne zwiazku tylko na podstawie reprezentacji stringowej, potrzebujemy dobrze dobranych technik ML.

Tresc:

  • Opracowac innowacyjna metode modelowania ADMET, ktora korzysta z dostepnych danych (rowniez zrodel open-source) i radzi sobie bez ogromnych, zamknietych zbiorow.

Koncowy opis

Samodzielnie sprawdz co mozemy wyniesc z Polaris Hub — to srodowisko, do ktorego regularnie bedziemy wracac, zeby benchmarkowac nasze metody. Polaris — benchmarking dla drug discovery

Dołącz do nas

Dołącz do nas, tworząc jednostkę badawczą tutaj na politechnice.

Nie prowadzimy żadnych regularnych wykładów ani wprowadzeń. Preferujemy pracę nad konkretnymi problemami badawczymi. Większość komunikacji odbywa się na Discordzie, GitHubie, Notion i Zotero.

Chodź budować

Obecnie sknwpl składa się z 5 osób, która jest rozłożona na 3 grupy:

  • Infrastruktura – tutaj jest budowa rzeczy pod workflow, żeby inni nie musieli robić jakichś konfiguracji narzędzi, jeżeli my możemy to zrobić.
  • Bioinformatyka strukturalna – badanie konformacji, badanie właściwości białek.
  • Chemiinformatyka – tworzenie biblioteki ligandów.

Bez żadnych reklam, bez jakiejkolwiek agendy. Chcemy tylko stworzyć ten workflow.

Jeżeli jesteś zainteresowany jakimiś koncernami farmaceutycznymi jak: Polpharma, Selvita, Celon Pharma, Ryvu Therapeutics, Mabion, Bioton, Captor Therapeutics, Bioceltix, Biotts, Polfa Tarchomin, Adamed Pharma, Molecure, Molecule One czy Pure Biologics, Helix Immuno-Oncology – to jest to świetne miejsce, żeby pokazać swój wkład w R&D.

Czego szukamy

Nie obchodzi nas do jakiej szkoły chodziłeś, czy w ogóle chodziłeś. Nie obchodzi nas czy masz tradycyjne wyszkolenie z jakiejś dziedziny. Jesteśmy sekcją projektową, a nie typowo edukacyjną. Szukamy ludzi którzy indywidualnie i w zespole potrafią wpłynąć na kierunek naszych badań:

  • jeżeli nie boisz się pytać o pomoc,
  • masz dużą autonomię i możesz pracować samodzielnie, nie będąc prowadzonym za rękę,
  • potrafisz wskazywać błędy i usprawnienia bez wstydu, że możesz być w błędzie,
  • chcesz robić grind.

Fajnie gdybyś pokazał swój GitHub, jakiś wkład w to co lubisz, jakikolwiek projekt który próbowałeś poprawić albo rozwiązać jakiś problem samemu.

Nie musisz udowadniać swoich umiejętności, wystarczy porozmawiać. Jednak gdy chcesz wstępnie móc wiedzieć co robimy zobacz zakładkę 'projekty' w których masz obecne przykładowe problemy jakie trzeba rozwiązać.

Aktywnie szukamy ludzi

Pamiętajcie, że wszystko zajawkowo:

DevOpsów

którzy ogarną infrastrukturę pod projekty (ogarnięcie dużej bazy danych z aplikacją generującą te dane i interfejsem webowym).

workflow od CADD

Biologów molekularnych / chemików nieorganicznych

osób z biologicznym lub chemicznym zapleczem do analizy wyników i interpretacji modeli (analiza działania białka, jak już widzimy wyniki symulacji: „co? dlaczego?").

workflow od CADD

SWE

którzy dowiozą solidne oprogramowanie po etapie PoC z Pythonem (tworzenie kerneli do PMARLO, inne magie, żeby to działało szybko i tanio na konkretnej architekturze).

PMARLO

Matematyków / fizyków / statystyków

potrzebujemy ludzi którzy zdołają uzupełnić wszystkie eksperymenty numeryczne o solidną analizę, która pokaże, że te obliczenia mają jakikolwiek sens.

PMARLO, Polaris Hub

Aplikowanie

  1. Jeżeli chcesz uczestniczyć w sekcji to należy dołączyć do koła bioinformatyki i powiedzieć mi jak chcesz pomóc w robieniu tego co wydaje się dla ciebie interesujące w naszej sekcji.
  2. Później porozmawiasz z jednym z liderów naszej sekcji na temat jak możesz się wdrożyć, pomóc lub robić.

Jeżeli wszystko pójdzie dobrze to będziemy robić ciekawe rzeczy.

FAQ

Jakieś komputery do obliczeń?

Nie

Gdzieś miejsce na infrastrukturę do stworzenia tego pipeline'u?

Nie

Jakiekolwiek licencje czy pozwolenia?

Nie

Helix macro visualization Blurred microscopy