大数据管理和挖掘生态系统
1 生物信息学和生物大数据发展的历程
生物信息学的发展和基因组学的发展是紧密联系的,基因组学更偏向于科学,生物信息学更偏向于技术,两者紧密结合共同发展。生物信息学和基因组学的发展又和测序技术的发展紧密联系,特别是NGS技术的出现,测序成本大幅下降,完成一个人类基因组的测序从最初的30亿美元下降到如今的1000美元,从而大大促进了这两个学科的发展。我国的组学方面的研究和应用是走在世界前列的,与高铁、网购等并列为中国领先世界的8大领域之一,这与几代科学家的努力是分不开的。
我很有幸在基因组学在国内刚起步的时候就进入这个行业,毕业时“三证齐全”(生命科学的学位证、计算机四级证和英语六级证),在2001年进入了生物信息行业。这些年也见证了这个行业的发展。
我把生物信息工具开发模式的发展分成三个阶段:第一个阶段:genome center唱独角戏。在这个方向刚兴起的初期,人才储备较少,产出数据的成本也很大,只有少量的国家支持的genome center可以从事这方面的系统研究,做生物信息开发的目的也比较明确,就是为了完成基因组中心所承担的一些重大国家科研课题,对生物信息开发的要求是“quick and dirty”,很少考虑程序的重复利用,做好当前数据的分析即可,这也是在当时历史环境下的一种必然,毕竟有太多山头要打,没有时间做打扫战场的事情。第二个阶段:NGS技术的出现和基因科技服务公司的崛起。当很多科学家看到了有那么多空白的山头待开发,同时数据产出的成本也大幅降低情况下,科学家们对组学研究都跃跃欲试,科技服务的市场需求就出现了,同时经过多年的人才储备,也有了一定数量的技术人员,为科技服务公司的出现打下了人的基础。两者一拍即合,科技服务行业蓬勃发展。这个阶段生物信息开发注重的是“pipeline”,这样能提高服务的效率,让公司能更好的发展。第三个阶段:大数据的积累和丰富多样的个性化分析需求。随着NGS技术的不断发展,测序成本不断降低,数据积累也越来越快,同时随着科学家对数据理解的深入,大大开拓了科学家的思路,各种个性化的数据分析想法大量涌出脑海,“personalized”成为了这个阶段的生物信息开发要满足的关键需求。
在进入第三个阶段后,随着海量数据的产出和大量个性化分析需求的出现,原有的“quick and dirty”和“pipeline”模式的生物信息开发就体现的比较低效,科学家们为了得到个性化分析的结果往往要付出很大的资金投入、沟通成本和学习成本。要让科学家更好的关注科学,让工程师更多的关注技术开发,让工程师们不重复开发,生物云平台是优化生物信息生态系统的一个有效方式,也是生物信息未来发展的趋势。我们已经开始进入生物信息的云计算时代。
2 生物云在生态系统中的定位和作用
生物云的生态系统包括哪些人及其之间的关系?随着测序成本的大幅下降,手头有基因大数据的科学家越来越多,围绕着大数据挖掘的从业人员也越来越多,一个生物大数据管理和挖掘的生态系统正在形成。在这个生态系统中,包括以下几方面的人员:生命科学或医学科学家,生物信息科学家,科研机构的生物信息技术工程师,科技服务公司的生物信息技术工程师,系统软件和硬件供应商。在这个生态系统中,各自有着不同的定位。生命科学或医学科学家,关心科学问题,对生物信息工具本身不是很感兴趣,能解决他们的科学问题的,就拿过来用。生物信息科学家,注重分析方法的创新,提高分析方法的效率和精确度,关心方法本身的专业性,对于用户体验层面思考较少。科研机构的生物信息技术工程师,具体分析课题组PI的项目分析,基本是“quick and dirty”模式,追求项目的效率,不太关心开发工具的重复利用。科技服务公司生物信息工程师,往往负责某研究方向的分析,“pipeline”模式居多,关心分析的自动化程度,以能处理更多的项目。对于个性化分析的提炼有一定的意愿。系统软件和硬件供应商,包括测序相关和计算相关,更多是想提高硬件的使用效率和销量。在这个生态系统里,大家根据自己的特点会有不同的形式来处理生物大数据挖掘和管理的问题。对于较大的课题组来说,即有生命科学或者医学领域的科学家,又有生物信息科学家和工程师,往往会选择自建生物信息分析硬件平台,自成系统的进行数据分析。对于没有生物信息背景人员的课题组,会考虑和有生物信息背景的科学家进行科研项目合作,或者和科技服务公司进行科研外包合作。
生态系统目前存在的问题?目前的这种合作形式存在较大的问题:1、海量的基因大数据放在数据库中,科学家不方便拿到符合自己需求的整合数据库和分析工具,分导致大量的基因数据沉睡在哪里,不能很好的挖掘出其中的价值2、生物信息工程师的重复开发严重,浪费了工程师大量经历,导致整体的开发效率低下。目前从事生物信息开发的工程师也有一定的数量,但开发产出却比较有限,很多工程师从业了好几年时间都没有开发一个标志性的工具,主要就是掉到重复开发的漩涡里了,去年开发过的内容,今年再重复开发一遍,明年再重复开发一遍,没有系统的规划和积累。3、生物信息工程师开发的工具往往只能自己使用。在现有的评价体系里面,一个生物信息工程师如果要证明自己的水平,往往需要发表学术论文来证明。从论文的角度比较关注技术创新和理论创新,这样就导致了,工程师往往对技术创新本身感兴趣,不注重用户需求和体验,导致开发的工具科学家们无法方便的上手使用。4、生物信息分析能力的培养和评价体系不够完善,基本靠自学,开发人员水平不容易评定,鱼龙混杂。5、工程师开发的工具很多,但缺少渠道分享自己的分析工具,主要是生物信息工具无法独立传播,需要部署在服务器上,对于大多数科学家来说,拿到一个分析工具后,要想使用需要配备各种硬件和系统人员,挑战较大,所以需要有更简单的发布和使用这些工具的渠道。总结起来就是,生物信息分析工具的开发和生物数据的积累各自为战,缺少连接,缺少分析工具共享、数据共享和经验共享的平台,从而大大影响了整体生物大数据挖掘和管理生态系统的效率。
生物云(BioCloud)是解决这一系列问题的一种有效手段。互联网技术的发展,特别是云技术的发展为生物大数据的管理和挖掘提供了更好的技术支撑。今天我们处在信息发展的第三平台,所谓第三平台,指的是以移动设备和应用为核心,以云计算,移动网络,大数据分析,社交网络技术为依托的新格局。此前,IT市场已经经历了两个平台,分别是20世纪60年代开始的以主机和终端为主的第一代平台和80年代开始的以PC为核心,以局域网、服务器、互联网为依托的第二平台。从第一平台到第三平台,面向的用户数更多,和人的距离也更近,每一个独立的人,都有可能变成第三平台里的用户或者说是企业的客户。因此,对于IT服务供应商而言,也意味着更多的机遇。在信息发展的今天,如何围绕云计算、移动设备、大数据分析,社交来促进基因科学领域的发展。生物云平台是互联互通,共享的平台,生物云时代的到来是历史发展的必然和趋势。
生物云的出现,能大大优化整个生态圈,提高科研协作的效率。生物云既属于科学家也属于工程师,科学家在这里能管理和挖掘好自己的数据,工程师在这里能发布自己的工具对接用户,既能改进科学家的科研效率,也能改进工程师的开发效率和传播效率,是现有生态系统的革命性的补充和完善。而且大家都不再需要为了底层复杂的IT计算资源,并行化计算,系统运维等问题担心。
3 百迈客生物云平台介绍
百迈客云是国内第一家正式商用的生物云平台,从2014年5月开始开放试用到2015年10月份正式商用。对于广大的科研用户而言,百迈客生物云是一个完整的交钥匙(Turn-Key)解决方案,用户只需要开通云平台账号,就有了属于自己的生物信息分析平台,科学家们可以利用这个平台进行生物信息的学习,培训,科研项目的分析以及生物信息软件的开发。使得自己的实验室以较小的成本就能获得和别的实验室投资几百万平台一样的分析能力。而且这个平台具有很好的弹性,无需维护,可以按需购买和使用。
对生物信息开发者而言,百迈客云提供了集成化的环境和友好的API,开发者可以将自身开发的软件发布到云平台。对科技服务供应商而言,百迈客云平台是一个很好的推广与应用平台。对科研院所而言,百迈客云平台是一个集科研与教学为一身的平台,能大大提高科研成果的产业转化。对于百迈客企业自身而言,云平台的自主创新之路显得水到渠成,百迈客从科技服务起步,6年多的成长之路,积累了上万个测序项目经验,同时有庞大的数据产出,这些真实有效的大数据背后蕴藏着无限的可能,面对客户、面对大数据、面对生态系统中的问题,生物云平台开发最有利用价值的工具,整合测序积累的大数据,研发两者之间的高度匹配规律,此时呈现给用户的是一款好用的生物云平台。
百迈客云使得生物信息的分析对生物学家,医学研究者变得透明,可重复,这些对于科研来说是必不可少的。同时,百迈客云能大大节省成本,用同样的经费能做更多的样品测序,完成更多的数据分析和解读。而且,百迈客云使得测序后的数据“活”起来,在云平台进行数据的共享,管理和分析更加方便。未来,百迈客云将在科研协作上为用户提供更多的便利。
百迈客云注重创新和引入人才,我们没有简单的抄袭国外的同类产品,立志做全球基因大数据的挖掘,管理和科研协作整合平台的第一品牌。百迈客云创新性的引入了可读化报告的自动生成和个性化数据的分析。公共数据和文章在后台与NCBI同步,更加方便用户对文章,数据的共享和使用。百迈客云从一开始就是自建数据中心,使得所有的系统和软件更加可控和可以针对性的进行优化,未来将支持主流的公有云,使得百迈客云的扩展性和灵活性得到更好的保障。此外,百迈客云采用订阅的方式进行销售,更加方便用户的预算和更多的使用。
百迈客云的团队,是由一批来自海内外的专家和学者组成的。核心管理团队来自VMware,Microsoft,华大基因。首席技术官是美籍华人,在硅谷有近20年的开发管理经验。产品经理曾在英国留学,一直担任一线的生物信息学研究。还有很多在生物信息,人工智能,Spark方面的顶尖开发人员。同时百迈客云聘请了近20位的科研顾问指导产品的发展方向。
4 对用户而言何为高效
在第一点中提到,科学家们为了得到个性化分析的结果往往要付出很大的资金投入、沟通成本和学习成本。从近些年的行业发展进程中发现,基因+云计算的成功融合带来颠覆性的转变前所未有,不管是传统的生命科学领域还是现在最前沿的精准医疗、人工智能、基因测序等产业中任何一方面的发展背后都需要海量数据能力的支持。
记得刚入行的时候就曾有科学家预言,21世纪是生物学世纪,假如过去生命科学曾得益于引入物理学、化学和数学等学科的概念、方法与技术而得到长足的发展,那么,现在生命科学将以特有的方式“云计算”向自然科学及计算机科学致敬,但那个时候,也就短短的十几年时间科学家们还未能预言出基因+云计算的理念,产业发展之快,可见一斑。发展之快的另一原因我想还有基于云平台的业务价值+需求,随着测序成本的降低,大量数据的涌出快速推进了云平台的发展,对于多数企业而言,挑战与机遇大都并行而来,2014年对关于开展高通量基因测序技术临床应用政策的重新开闸,展现了国家对基因产业的支持态度,也就是在这个时段,百迈客的云平台测试版正式上线,在生物信息工具开发模式的第一和第二个阶段,对于科研工作者来说,如果研究某个物种或疾病,都要各处翻阅大量文献比对大量基因数据,而且研究信息不够集中散落在各个地方,甚至还需要学会很多种分析工具,这势必占据了科研道路上大部分时间,云平台的业务需求就显得尤为重要,科研工作者可能以前要花掉几个月甚至更长的时间完成的工作,如果采用云平台处理,使用工具一台个人电脑即可,再花上品一杯茶的时间就可以得到相应的数据分析结果。时间成本效率的大大提高势必
会提升研究经费使用率,探索中也为科研体系资金的良性运转带来些许的改变。整体而言,用户更加需要一个平台,能帮助其了解特定研究领域的发展趋势,找到所需的论文和可用的数据,更加方便的进行科研思路的交流,数据分析的可视化解读和科研的协作。大大缩短过去需数月时间的科研工作到一周左右,大大提高行业的数据整合和数据使用率。大数据的管理和挖掘,这也正是百迈客云努力的方向。
纵观历史与经济发展历程,任何行业都经历着兴衰更替是一种恒定不变的规律,生命科学与计算机科学(云计算,大数据分析,机器学习)高度的双向渗透和综合承载着研究技术和手段的革新使命,且促使生命科学向更高层的研究领域突破,“大生态、大环境”不再遥远!
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21