星系的下一代测序信息管理和分析系统

布拉德查普曼生物照片 经过 布拉德查普曼 评论

下一代测序技术喜欢 illumina, 坚硬的454 提供了核心设施,具有产生大量序列数据的能力。随着这种增加的产出,来自管理请求和样本,跟踪序列运行以及自动化下游分析的挑战。

我们的小组 马萨诸塞州综合医院 通过在基于Web的顶部开发示例提交和跟踪界面来接近这些挑战 星系 数据集成平台。它为生物学家提供了前端,以输入其示例详细信息并监控项目的状态。对于实验室技术人员进行样品准备和排序工作,系统通过一组渐进队列在每个步骤中提供数据输入点的一组渐进队列来跟踪样本状态。在后端,自动分析流水线处理数据在关闭定序器时处理数据,将结果上传回Galaxy。

此帖子将显示在操作中的接口的视频,描述系统的安装和扩展,并详细说明实现架构。

前端使用

研究员样本入口

生物学家使用本地Galaxy Server作为分拣点以提交测序样本。这提供了熟悉的接口和中心位置,用于输入示例信息和检索和分析排序数据。

实际上,用户通过浏览到示例提交页面开始。它们有一个向导界面,通过输入样本详细信息来指导它们。通过拖放接口支持多路复用样本。

[youtube=http://www.youtube.com/watch?v=HGhNMeEAFV0]

输入所有样本时,用户将它们作为排序项目提交。这包括结算信息和项目名称,以促进研究人员与核心组关于提交的核心组之间的沟通。用户能够将其提交作为项目分组并跟踪构造状态。由于我们支持许多服务,除了测序库施工,定量和验证之外,这是用户跟踪和组织其请求的有价值的方式。

[youtube=http://www.youtube.com/watch?v=DtQG9IzpoCU]

测序跟踪和管理

管理员和排序技术人员可以访问其他功能,以帮助管理内部示例准备和排序工作流程。主要样品跟踪界面中心在一组队列周围;每个队列表示样本可以进入的状态。样本通过处理后的队列移动,并在每个步骤中添加其他信息。例如,一旦完全定量,“预先排序定量”队列中的样本移动到“测序”队列,其中通过测序技术人员在转换期间输入的定量信息。

使用拖放将样本分配给流细胞 jqueryui. 界面。该设计是灵活的,以允许将样品放在多个泳道上或将多个条形码样本复用成单个车道。

[youtube=http://www.youtube.com/watch?v=Sjt6y1lbzVI]

查看测序结果

运行序列机需要仔细监视结果,我们的界面提供了几种查看此数据的方法。原始群集和读取计数链接到运行列表。对于更高级别的分析,与读取密度相比,可以随时间查看读取的交互式图,并通过速率。这些允许调整实验程序,以最大化基于当前机器化学的有用读数。

[youtube=http://www.youtube.com/watch?v=4xrtPXE7Oe8]

分析管道

利用组织请求的前端允许通过背面的完全自动分析管道进行测序结果。管道检测到序列器关闭的运行,将文件传输到存储和分析计算机并管理许多处理步骤:

除默认分析外,还包括完整的SNP调用管道:

FASTQ读取,对齐文件,摘要PDF和其他关联文件将上传到由示例名称组织的Galaxy数据库中。用户可以下载脱机工作的结果,或直接导入其Galaxy历史记录以进行进一步分析或显示。

上传数据库中的分析文件

安装和扩展

代码库保持为a Bitbucket存储库 这是追踪主要的 银河系中央 分配。它定期从主站点更新,以维持兼容性,将概括版本集成到主要源树中的未来目标。 详细的安装说明 可用于设置前端客户端。

分析管道是用Python编写的,并驱动多个开源程序;它可以作为一个 github存储库 使用文档和安装说明。

我们正在使用当前的生产系统,并继续基于用户反馈开发和添加功能。我们希望将其概括为其他研究核心,其中包含额外的仪器和服务,并且很乐意听取开发人员为其设施的这种类型的制度。

实施细节

如果没有它构建的伟大开源工具包和框架,则无法实现这项工作。 Galaxy不仅提供了分析框架,还提供了一种准备好使用数据库结构来管理样本和请求。前端构建现有 星系示例跟踪 工作,只需要两个新的数据库存储表。

现有示例跟踪框架的主要变化是样本和请求关系的概括。请求均可包含样本,并成为样本的一部分,以便组织出序列样本为:

请求示例数据库架构

通过重用和扩大银河系团队的伟大工作,我们希望最终将这项工作的有用部分整合到Galaxy CodeBase中。

评论支持 反驳