1.生物信息学是大数据科学
生物信息学是大数据科学,相比于人脸,指纹,语音,视频,文本等大家耳熟能详的处理数据,我们的数据来自于基因组,通过测序仪测序以“ACGT”字符串的形式存储。个人基因组的数据量大约为100G,而个人的指纹,掌纹数据量(KB级)远远小于个人基因组大小。因此,生物信息学要做的是对海量的字符串序列进行高效快速的检索,比对与分析。
2.生物信息学是算法密集型科学
面对PB级的海量数据的新挑战,我们要与时俱进构造适合大规模数据的数据结构,在原有哈希,后缀树,图索引的基础上不断创新,并创造分布式数据结构,内外存混合结构等。有了数据结构的支撑,对经典的动态规划算法,贪心算法,分治算法,搜索算法等进行优化改进以适应新的大数据需求。
1.改变世界的科学——诺贝尔奖
2013年基于图论和分治算法的化学分子结构数据分析算法获得诺贝尔奖,该工作把化学实验搬进了计算机虚拟世界,使得计算机和试管同样重要。2017年又一项生物信息学算法——冷冻电镜数据分析算法获得诺贝尔奖,依靠该技术,细胞在我们面前将再无秘密。
2.改变世界的科学——抗击新冠
从患者体中提取2019-nCov病毒细胞,通过测序获得新冠病毒的基因组测序片段(“ACGT”字符串),利用图理论和信号聚类等计算方法将短序列拼接成完整的新冠病毒基因组序列,并计算得到新冠病毒基因组全长为29.9kbp。众所周知,病毒检测需要找到该病毒与其他病毒之间的特异性序列,这本质上是字符串之间的模式匹配问题。利用动态规划算法,将新冠病毒全长基因组与数据库中的已知病毒序列进行序列比对,并寻找特异性序列,用于设计病毒检测试剂盒。
3.通往未来的科学——下一个风口浪尖
生物信息学正在颠覆传统:创造新的财富。
DNA计算机:在一毫升的DNA溶液中,可以容纳十的十八次方条DNA 。每条DNA都可以看成是一个微处理器。每秒钟的运算量还可以达到十的十五次方。现在最快的计算机每秒钟的运算速度是十的十二次方。
DNA存储:1公斤DNA可以存储全世界的数据;
游戏处方药:电子游戏首次获批称为“处方药”。