使用基因集富集分析的途径分析 (GSEA) 工具

基因集富集分析的许多方法之一 分析基因表达 描述文件数据,并在所述 工人在Broad研究院.

提示通过观察,学习的基本概念 单个基因 显示两种状态之间或表型表达水平最显着的差异是 缺乏机械洞察力. 代替, 采取更有意义 基因组 分享一些 生物链接, 问的问题 - 不显示任何统计学整套 显着富集 在那些有差异表达的基因?

基因组 可以选择, 先验, 一些原因,例如. 由以上的影响已知的基因集- 或根据一个微RNA的表达, 或者所选择的一组的基础上的染色体位置, 或基因的分子功能, 细胞成分和 / 或生物过程已分配使用的受控词表 基因本体论.

GSEA方法的优点之一是,它是可以掺入的 完整的数据集, 不只是那些成绩单和一个任意选定的差异表达门槛. 我敢肯定,很多人阅读本思考 - “这怎么可能确定使用完整的数据集? 通常情况下,我只会考虑基因 >2 (或其他喜爱的价值)-倍差异表达。“原因的方法是有效的,是在较低水平或复制较大差异表达的基因不利于GSEA使用的主要指标, '富集得分“ (ES).

GSEA第一 排行 每个基因的表达值 信号噪声 比例 - 计算代表每个表型的样品的平均值之间的差异和缩放它们的标准偏差的总和. 这意味着,基因表达水平差异较大的不同状态之间和生物之间的变化不大复制的排名高度.

下一个步骤是对ES, GSEA所产生的主要统计数据, 计算每个基因的集 - GSEA手册, 出色记录软件, 它指出:

“所有基因的信号噪声比排名第一, 然后在ES的计算方法是“走”下来的排名列表基因 增加运行总和 统计时,一个基因的基因组中,并 减少 它时,它不是. 该 大小 的增量取决于 相关 与基因 . ES是从零走在列表中遇到的最大偏差. 一 积极 ES表明基因组富集 顶部 位列榜单; 一 ES表明基因组富集 底部 位列榜单。“

ES值 基于基因组的大小,然后一个 错误发现率 计算, 误报的概率的估计. GSEA使用一个非常宽松的默认值 25%, 这是适于生成假设有相对大量的生物复制.

数据科学家 non-human 样品仍然可以使用GSEA, 但需要提防 - 在 基因符号 使用GSEA“翻译“从他们的人力等值i.e. 标识符用于物种基因芯片为代表的利息转换成他们的符号 人类同源基因, 然后在分析中使用. Subramanian和他的同事们 声称 这种转换具有很少或 没有效果 GSEA的效用; 它已成功地用于在多个非人类物种, 但当然,这必须牢记的详细调查结果时,.

对于一个优秀的, 在深入, 审查通路工具, 请教:

卡特里, P., 希洛塔, M., & 小山, 一. Ĵ. (2012). 十年的途径分析: 目前的方法和杰出的挑战. PLoS计算生物学, 8(2), e1002375. 二:10.1371/journal.pcbi.1002375

另一个很好的来源途径分析建议, 尤其是那些熟悉的R统计软件包 这里.

延伸阅读

萨勃拉曼尼亚à, 塔马约P, Mootha VK, 慕克吉小号, 艾伯特BL, 吉列MA, Paulovichà, 波默罗伊SL, 戈卢布TR, 兰德ES, Mesirov J​​P (2005) 基因集富集分析: 以知识为基础的方法,解释全基因组表达谱. PROC Natl科学院学报üS A 102:15545-15550

谢兴, 吕江宁, 退纸Kulbokas器, 戈卢布TR, Mootha V, 琳达巴德托博士K表, 兰德ES, 金匙中号 (2005) 系统发现在人类推动者和监管图案 3[黄金] 通过比较几种哺乳动物的非编码区. 性质 434:338-345

此项目被张贴在 路径分析. 书签 一篇. 发表评论 或留下引用: 引用网址.

引用

发表评论

您的电子邮件 从来没有 发布或共享. 必填项已被标记为 *

*
*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

CommentLuv badge
  • 与我们联系

    Link to ourRss
    Link to ourTwitter
  • 与我们联系

    Link to ourLinkedin
    Link to ourRss
    Link to ourTwitter