当前位置: www.89677.com > 互联网 > 正文

色情网站有多大www.89677.com,中国BIGD跻身国际生物

时间:2019-11-17 04:34来源:互联网
(毛球控/译)Google于今年3月推出了GoogleGenomics,这一服务可以让科学家把基因组数据存储在云端,并对DNA序列进行研究和共享。最近,Google对其进行了调价,只需25美元/年,就可以把你

(毛球控/译)Google于今年3月推出了Google Genomics,这一服务可以让科学家把基因组数据存储在云端,并对DNA序列进行研究和共享。最近,Google对其进行了调价,只需25美元/年,就可以把你的基因组存在云端。

国内互联网公司已经是进入如火如荼的入口争夺和资源部署阶段,但是基因行业这个小众市场还是一个神秘的领域。先不论这个领域有着太多高学历人才和高技术含量的科技成果,仅仅是众多基因行业的业务受到国家政策管制和干预的风险,就让许多互联网公司望而却步。互联网公司看上基因行业并不是因为这个小众市场,而是看到了背后生物数据的可挖掘价值,但是什么时候能够进入基因行业,从哪里开始进入,这还是一个未知数。笔者从四个方面来谈谈互联网拥抱基因行业的可能。通过云端技术部署基因行业云端技术已经成为互联网公司的专宠。巨头们通过解决三个问题,逐步地将基因数据资源归入囊中。云端解决的第一个问题:数据存储。最早通过云端技术部署基因行业的互联网巨头,是谷歌和亚马逊。以谷歌为例,早在2013年3月,谷歌已经邀请了基因组学领域的科学家将DNA数据转移到谷歌的服务器上。谷歌将其服务器称为Google Genomics。谷歌通过自身占有的数据库搜索技术优势,将人类的基因数据进行备份和建立索引,同时开发了一系列的应用程序接口API。亚马逊的AWS云服务和基因行业的合作可以一直追溯到NCBI提供的全球范围的基因信息比对搜索引擎。2012年,亚马逊的云服务已经接管了国际千人基因组计划的基因数据存储,当时这是世界上最大的人类遗传学数据库,并且数据是公开和免费的。

色情网站有多大www.89677.com,中国BIGD跻身国际生物组学数据库。生活在互联网世界的人,都曾或多或少地浏览过在许多国家仍受管制的色情网站。我们很难洞察这类网站的发展状况,因为相关的确切数据实在是少之又少。可以肯定的是,色情网站的访问量肯定少不了。事实证明上述猜测是正确的,因为根据谷歌旗下广告服务商Doubleclick的数据显示,独立访问量前500名的网站中,竟有数十个是成人网站!

www.89677.com 1

其实从18个月前,Google就开始着手Google Genomics的建立了,包括会见科学家,以及搭建界面和应用程序接口。凭借这些,Google可以将DNA数据存储在自己的服务器集群上,并利用这些数据进行实验。其中用到的数据库技术与Google索引和用户追踪技术相同。

www.89677.com 2

世界上最大的色情网站Xvideos每月有44亿的访问量,这个数字是CNN官网或24小时专门播放体育节目ESPN电视网的访问量的3倍,是社交新闻站点Reddit的2倍。YouPorn、Tube8和Pornhub这些大型的色情网站,其访问量也可以让除了Google和Facebook等超大型网站之外的小网站们相形见绌。

搭建中国人自己的组学数据库,乘上自己的巨轮说开就开,BIGD应运而生。喃东尼绘

随着实验室不断引进速度更快的新设备来解码DNA,数据量正在经历一种爆发式的增长。例如马萨诸塞州一家研究所在10月份时,每32分钟就能解析出约等于一个人的基因组的数据,相当于200TB的原始数据。不过,这点数据量和这些互联网公司每天处理的数据相比,还是要小得多——YouTube一天的上传量就相当于该研究所2个月的数据量。

www.89677.com ,国内互联网公司必须要通过免费占据基因信息入口谷歌和亚马逊针对DNA存储云端化服务在市场上交锋已经一年了,双方直接进行价格战的结果是,谷歌提供每个基因组的年存储费用只需要25美金。目前每个人的基因组原始数据在100G左右,谷歌提供压缩数据服务以后这个数据能压缩到1G以内,也是说每年一个人的基因组数据云存储只需要0.25美金!笔者认为,国内互联网公司必须要通过免费占据基因信息入口。数据的价值在于挖掘和互动,如果这些价值超过了数据本身的产出和存储价值,免费是大势所趋。云端解决的第二个问题:数据运算。云存储的解决会衍生出一批生物信息创业公司。为什么呢?道理很简单,云端技术门槛太高了,老百姓不能直接使用。看看我们手机里面安装的都是APP而不是云端服务器API软件就知道了。这里会衍生出一个很复杂的云计算产业,笔者不会展开这么复杂的结构图来讲解,那样我们就跑题了。云服务提供商将服务器集中起来,不仅提供云端的存储,而且还提供云端的运算和资源的管理等服务。有了这个良好低价的生态环境,众多的互联网公司诞生了。在基因行业,催生了Tute Genomics, DNANexus, OneCodex, Seven BridgesGenomics和NextCode Health等生物信息公司。这些公司里面有使用谷歌的云存储和云计算服务的,也有基于亚马逊的AWS云端服务搭建的生物信息大数据平台。

从访问量中,我们只能得出色情网站要比非色情网站更受欢迎这个结论。40亿访问量听起来确实是个天文数字,但是当你将用户在色情网站上做的事考虑在内,你就会发现,色情网站的大小和规模也不可小觑。

测序技术的发展将生命科学领域带入组学时代,海量的数据产出成为常态。组学是将基因、蛋白及代谢物等生物分子以整体为单位进行系统性的研究,基因组学、蛋白质组学和代谢物组学等相应产生。相较于此前以个体为单位的研究,组学最主要的特征就是大数据。随着组学数据的产出,搭建组学数据库,实现海量信息的存储、整合及共享,成为一项重要任务。

这些超出任何个人的处理能力的海量数据必须要有一个数据中心。美国国家癌症研究所就表示,将斥资1900万美元,把约2.6PB(1PB=1024TB)的癌症基因组图谱上传至Google Genomics和亚马逊的数据中心。这样做的目的在于打造一个“癌症基因组云数据库”,科学家可以借助这一平台,像使用网页搜索一样快捷便利地分享信息和进行模拟实验。

www.89677.com 3

网站规模

色情网站和非色情网站的主要区别就是访问者的停留时间。Engadget和ExtremeTech这类科技网站的用户平均停留时间在3到6分钟之间,这足以让用户阅读完几篇文章了;而色情网站的用户停留时间则在15到20分钟之间。

两者之间的差异也情有可原,因为大多数网站的内容主要是文字和图片,大型色情网站则力推视频内容,众所周知,看完一段视频所花的时间可比阅读完一篇文章花的多。ExtremeTech主页的数据大小约为数百万字节,但一段只有480×200低分辨率的色情视频,每秒的数据量就在10万字节左右,15分钟的视频就可以耗掉约9千万字节的流量。将9千万字节乘以Xvideos网站每月约3.5亿的访问人数,就可以得出Xvideos每月需要处理29PB的字节(1PB=1024TB,1TB=1024GB),即每秒50GB字节的的数据传送。

简而言之,色情网站每天需要处理海量的数据。在纯带宽(单位时间内可传输的数据量)上,美国本土能够与之匹敌的也仅有视频网站YouTube或Hulu了。色情网站的规模大到难以想象,排名第二的YouPorn的纯带宽都要比Hulu大出6倍。

目前,在国际上被认可的生物组学数据中心主要有美国的NCBI、欧洲的EBI及日本的DDBJ。要想在国际期刊发表论文,需要先将自己的原始数据提交到这三个官方指定的数据库中。这种情况表面上有利于国际科学数据的资源整合与共享,实际上却对中国的科学研究发展带来了很大的影响:这不仅影响了数据提交时的效率,更重要的是在数据下载时还会遇到各种限制,中国的科学家始终不能做自己数据的主人。

目前,Google Genomics上已经存储了至少3500个来自公共项目的基因组。在Google Genomics存储一个基因组的价格为25美元/年,如果需要对数据进行计算还将额外收取费用。一个人的基因组原始数据大小约为100GB,而经过压缩后将不到1GB,也就是说只需要25美分。

云存储的解决会衍生出一批生物信息创业公司2013年11月,谷歌投资的23andMe公司遭遇美国FDA的封杀,2014年1月4日,谷歌领头对DNANexus公司进行1500万美金的C轮投资,DNANexus是一家DNA数据管理和分析在线工具提供商。谷歌这些互联网巨头对数据应用端的企业进行投资,其目的在于打造一个对于自身有利的闭环生态环境。云端解决的第三个问题:数据安全。云端解决的数据安全归根结底集中在两个方面:一个是数据传输的安全性,另一个是检索的安全性。这里有一个很有趣的商机。我们知道互联网巨头已经把数据应用开发放权给小公司来形成生态环境了,到了数据安全这一环,如何把权力回收呢?答案还是进行放权。谷歌推行的做法是:制定规则。

网站的基础设施

与仅仅提供文字和图片相比,视频服务所需要的资源可要多得多了,它需要大量的数据储存、较短的CPU周期、内部I/O和高带宽等。

虽然说色情网站各不相同,但是大多数色情网站都会储存大约50到200TB的色情资料,对一个网站来说,这可不是一个小数目。不过幸好现在2TB的硬盘驱动器价格低廉且种类繁多,因此这对色情网站来说应该不算是太大的问题。

色情网站需要提供数千个动态的、可搜索的视频数据库,当有人点击一个视频时,文件会经过硬盘读取继而上传到网络上,这是一个繁杂的过程,而CPU周期和I/O能够影响数据的读取和上传的快慢。除此之外,在硬件方面,色情网站还需要四核机架服务器、千兆交换机和负载均衡等。在软件方面,大多数色情网站会使用快速、灵敏的数据库,如Redis来储存和提取视频,还有轻量级、高性能的Nginx等来作为网页的HTTP服务器。

在带宽上,拿上面的Xvideos为例,大型的色情网站需要有足够的网络连通性来完成每秒400Gb的数据传送。而且这还只是平均的数据传输速率,在高峰时段,Xvideos的背板带宽可以飙升至每秒1000Gb甚至更多。当然了,有许多方法可以解决流量过多产生的问题,如网站可以成立自己的数据中心,或租用大型数据中心的一些机架服务器,或使用如亚马逊或微软提供的云储存等。

中国的生物组学数据产量约占全球的40%,是数据产出大国,却没有一个能够被国际认可的数据库系统,不得不将自己宝贵的数据资源交给他人代管。

这项技术使得今后医学或将依赖于某种“全球DNA网络”,医生将可以在这个网络中搜索他需要的内容。比如对癌症患者,医生就能对他进行基因测序,然后将他正常细胞和肿瘤细胞的基因组与数据库中的5000万个基因组进行匹配,然后给出最合适的药物。(编辑:球藻怪)

www.89677.com 4

真实的范例

世界第二大色情网站YouPorn给我们提供了一些一手的数据,看完你就会发现,事实上,谷歌的Doubleclick广告服务商低估了色情网站的吸引力。

YouPorn有超过100TB的色情资料,每天的页面访问量超过1亿,这就意味着它每天的数据传输量有950TB之多,大多数的数据传送用在了加载视频上。按照上面的数据计算,YouPorn每月的数据处理量有28PB,因此,排名第一的Xvideos的数据传送肯定不止29PB,它每月的数据传送量估计在35到40PB之间。在高峰时间段,YouPorn每秒需要处理100GB(每秒800Gb)的数据量,这个数据量等于YouPorn每秒传送了10多张双层的DVD。

在软件方面,YouPorn完全使用Redis进行数据存储,并使用MySQL小型数据库管理系统对Redis进行添加或管理。网页的HTTP服务器是Nginx,负载均衡则使用的是HAProxy和Varnish。Redis服务器每秒需要处理30万个页面请求,每小时会记录下8到15GB的数据(包括用户登录、观看记录等),YouPorn认为Redis处理每天2亿的访问量不成问题。

互联网只能处理50Tb每秒的数据,换而言之,单单一个YouPorn的流量就占了整个互联网的2%。类似YouPorn这样的色情网站有数十个之多,因此,认为色情网站的数据传送量占据整个互联网的30%就不算夸张了。

 

图片和信息来源: extremetech

现在,这种情况终于得到改变。近日,中国科学院北京基因组研究所生命与健康大数据中心团队在国际学术期刊《核酸研究》在线发表了一篇研究论文,题目为“北京基因组研究所生命与健康大数据中心:从存储到整合再到转化”。生命与健康大数据中心章张研究员、赵文明高级工程师以及肖景发研究员为本文共同通讯作者。这是我国第一次以数据中心的模式,整体发布我国生命组学数据资源的建设情况,标志着生命与健康大数据中心的建设取得了实质性进展,也标志着我国建设综合性基因组数据资源获得国际同行认可。

文章题图:theguardian.com

北京基因组研究所生命与健康大数据中心(Beijing Institute of Genomics Data Center)简称BIGD,肩负着建成面向国家大数据发展战略的多层次生物组学数据资源系统的重要历史使命。目前的数据资源系统包括:高通量测序的原始组学数据归档库GSA,围绕国家重要战略生物资源的基因组数据库GWH,基于测序数据的基因表达数据库GEN,基于中国人群以及国家重要物种群体的基因组变异数据库GVM,基于全基因组DNA甲基化图谱的表观基因组数据库MethBank,以及基于大众审编的生命科学维基知识库Science Wikis等,初步形成了我国生命与健康数据交会与共享平台,具备可服务于全球的基因组数据共享网络。该研究得到中国科学院战略性先导科技专项、中国科学院国际大科学计划等项目基金的资助。

现在,包括美国国家科学院院刊、细胞研究等核心期刊在内的多个国际核心期刊已经认可把数据提交到BIGD,中国原始组学数据库BIGD成为继国际三大数据中心之后,国际上第四个被认可的数据库。

(原载于《经济日报》 2017-02-13 15版)

编辑:互联网 本文来源:色情网站有多大www.89677.com,中国BIGD跻身国际生物

关键词: