Gene Set Obohacení analýza je jedním z mnoha přístupů k Analýza genové exprese Profil údaje a je popsána v papírz pracovníků na Broad Institute.
Základní koncept byl podnícen pozorování, že studium jednotlivé geny zobrazující nejvýznamnější rozdíl v expresi úrovni mezi oběma státy nebo fenotypy je chybí mechanistického vhledu. Místo toho, to dává větší smysl, aby se sada genů sdílet některé biologické odkaz, a položit otázku - má celý soubor zobrazit zjištěn statisticky významné obohacení v těch genů, které mají rozdílná exprese?
A gen set může být zvolen, priori, z několika důvodů e.g. soubor známých genů být ovlivňován přes- nebo pod-výraz mikro-RNA, nebo možná set vybrány na základě chromozomální umístění, nebo geny pro které molekulární funkci, Buněčná komponenta a / nebo biologický proces byly přiřazeny pomocí řízených slovníků z Gene Ontology.
Jednou z výhod přístupu GSEA je to, že je možno včlenit svůj kompletní soubor dat, nejen ty přepisy s libovolně zvolené prahové hodnoty diferenciální exprese. Jsem si jist, že mnoho lidí čtení to bude myslet - "Jak to může být v pořádku používat kompletní datovou sadu? Normálně bych v úvahu pouze geny s >2 (NEBO Mezi další oblíbené hodnotu)-rozkládací diferenciální výraz. "Důvodem přístup je platné, je, že geny vyjádřené na nízké úrovni, nebo s velkým rozptylem mezi replikuje nepřispívají ke hlavní metriky používá GSEA, "obohacení skóre" (ES).
GSEA funguje tak, že nejprve žebříček hodnota výrazu pro každý genu signálu k šumu poměr - výpočet rozdílu mezi průměrnými hodnotami pro vzorcích představujících jednotlivé fenotyp a škálování je součtem směrodatných odchylek. To znamená, že geny s velkými rozdíly v expresi úrovni mezi různými státy a malé rozdíly mezi biologickými replikuje se zařadil velmi.
Dalším krokem je, že ES, primární statistiky generované GSEA, se počítá pro každou soubor genů - v GSEA příručce, což dokumentuje software výborně, uvádí,:
"Všechny geny jsou nejprve seřazeny podle jejich odstupu signálu od šumu, pak ES se vypočítá "chůzi" se v žebříčku genů zvyšující se a běh-sum statistika když gen je v genu sadě a klesající to, když to není. The rozsah přírůstku závisí na korelace genu s fenotyp. ES je maximální odchylka od nuly setkal v docházkové seznam. A pozitivní ES označuje soubor genů obohacení na top z žebříčku; a negativní ES označuje soubor genů obohacení na spodní z žebříčku. "
Tyto ES hodnoty jsou normalizovaná na základě genové nastavené velikosti a poté se false discovery sazba se vypočítá, aby odhadovaný pravděpodobnost falešných poplachů. GSEA používá velmi uvolněný výchozí hodnotu 25%, , který je vhodný pro hypotéz generace s relativně velkým počtem biologických replikátů.
Vědci pracující na údajích od non-human Vzorky mohou i nadále používat GSEA, ale je třebavarovat se - genové symboly používá GSEA jsou "překlad"Z jejich lidské ekvivalenty i.e. identifikátory používané pro genů z vašich druhů zájmové skupiny zastoupené na mikročipu jsou převedeny do symbolů pro jejich lidské orthologues, pak použit v analýze. Subramanian a jeho kolegové nárok že tento převod má málo nebo žádný vliv o užitečnosti GSEA; to byl úspěšně použit v mnoha non-lidských druhů, ale samozřejmě musí to být stále na paměti při vyšetřování výsledků v detailu.
Pro vynikající, do hloubky, přezkum stezku nástrojů, konzultovat:
Dalším dobrým zdrojem rad na dráhy analýzy, zejména pro ty, kteří znají R statistik balíčku je zde.
Další čtení