"自主问答式"基因数据科研聚类分析平台
如何挖掘基因大数据的科研价值?如何发现新的致病基因?科研之路困难重重,非生物信息专业的医生或者研究者聊到这个话题都会感到扎心。他们一般是委托第三方公司进行基因测序,公司提交测序分析结果和一堆原始数据,但结果往往并不令人满意,问题在于:
大多数基因测序公司只是擅长做基础测序和基本的分子生物学注释,对疾病、遗传机制领域并不在行,他们的分析未必满足需求,结果未必靠谱。医生或研究者如果改变分析思路要求公司重新分析,公司大多会提出新的费用要求,成本居高不下。
有人会说,原始数据不是在医生或者研究者手里吗,自己不能分析吗?还真不能!隔行如隔山,对于非生信专业的人而言,原始测序数据几乎毫无实际意义。科研分析,为啥就不能像敲计算器一样,用户自己把算式敲进去,一键就得到结果呢?
平台解决方案
说得更清楚点就是,能不能有这样一个"自主问答式"的数据分析平台,这个平台已经嵌入了常用科研思路所涉及的各种分析算法,用户只需要选择设定数据分析的思路,电脑系统平台就会在后台自动运算并给出分析运行结果。一旦用户要换个思路分析,只需要重新设定新思路,让系统再次运算即可。
这个梦想已经不再仅仅是梦想了,对于客户交付给平台的数据,或者是交付做基因测序而产生的数据,客户就可以在平台上,像敲计算器一样,设定需要聚类分析的条件,平台即可在0~n分钟内运算生成聚类分析的表格化结果。
平台功能模块
基因大数据聚类分析平台目前已开放了遗传病研究模块,可以设定的条件指标有:
平台科研价值
基因大数据聚类分析平台将有助于科研用户实现以下功能:
- 通过多样本大数据解读变异的致病性
- 发现疾病相关性变异、统计热点致病突变
- 发现新的致病变异、致病基因
- 统计某种疾病的致病基因相关性
这个平台实质上是把从科研思路到需求整理,从需求整理到生信分析,再从生信分析到结果提交这一过程的所有中间环节悉数越过,实现了从科研思路到分析结果的直达,从而大大提升了科研分析的效率。
发现新致病基因,不再遥不可及
遗传病的地理大发现——正当其时
人类目前已鉴定出有功能的基因总共有约2万个,而其中只有不到4千个(约20%)与已知的疾病相关。人类目前已发现的疾病有1万多种,而其中只有4千多种(不到30%)找到了致病基因。
这就意味着绝大部分基因尚未找到对应的疾病,绝大部分疾病尚未找到致病基因。未知的领域比已知的领域要广阔得多,发现新疾病、新致病基因的研究大有可为!
三步走发现新致病基因
想明白要做哪种疾病的研究,确定研究表型
最好是家系样本,包含患者及父母等家系成员,家系越多越好
利用康欣赛尔临床级基因数据分析平台和聚类分析平台,大海捞针式找到关联
为什么选择全外显子聚类分析?
相较于Panel策略(只能检测有限的已知基因,不适用于新发现)和全基因组测序策略,全外显子聚类分析具有以下优势:
- 数据质量更高:在致病突变富集的外显子区域,全外显子组可达100X测序深度,优于全基因组测序的30X。
- 信噪比更优:全外显子组聚焦外显子区域(编码mRNA的功能区域),过滤了绝大部分不导致疾病的非编码区变异。
- 分析成本合理:全外显子组数据量不到10G,远小于全基因组的近百G,数据分析成本大幅降低。