当前位置: www.89677.com > 互联网 > 正文

和人类一点关系都没有,什么是数据分析做不了

时间:2019-12-09 14:06来源:互联网
从大数据产业掘金,对于上海的重要意义不言而喻。最近,不少政府委办、高校,纷纷研讨大数据产业,希望加快产业推进步伐。但在一片热闹声中,我们是否意识到,大数据产业之新

澳门威呢斯人赌场 1

从大数据产业掘金,对于上海的重要意义不言而喻。最近,不少政府委办、高校,纷纷研讨大数据产业,希望加快产业推进步伐。但在一片热闹声中,我们是否意识到,大数据产业之新不仅在于技术,更在于它将深刻影响产业链和社会运行模式,倒逼我们营造适应新产业的新环境。

澳门威呢斯人赌场 2

(文/DAVID BROOKS)不久之前我曾与一位大型银行的首席执行官一同用餐。他正在考虑是否要退出意大利市场,因为经济形势不景气,而且未来很可能出现一场欧元危机。

培养数据科学家正当时

2014 年年末,中国的股市迎来了久违的大牛市,从 2014 年 11 月到 2015 年 4 月,半年的时间深沪指数狂涨 2500 点。

这位CEO手下的经济学家描绘出一片惨淡的景象,并且计算出经济低迷对公司意味着什么。但是最终,他还是在自己价值观念的指引下做出了决定。

据统计,当今世界在24小时之内,就可以产生出相当于16.8亿张DVD容量的数据;产生2940亿封电子邮件,相当于全美国在2年中产生的纸质邮件。人类至今获得的全部数据,有90%是在过去两年产生的。在如此庞大的数据海洋里寻找有用信息,如同在一堆干草垛中找寻一根针。简言之,并不是拥有海量的数据就能自然而然地挖掘出背后的价值,其带来的干草垛负面效应,足够让无准备者手忙脚乱。

而这一疯狂在 2015 年春夏之交迎来了顶点——4 月 20 日这一天,沪市全天交易额突破万亿元大关,震荡超过 150 点!炒股软件最多只显示 10000 亿元,导致各软件全部「爆表」,交易额停留在这个数字。上交所紧急发布通知,表示这一爆表并不会影响正常交易。

这家银行在意大利已经有了几十年的历史。他不希望意大利人觉得他的银行只能同甘不能共苦。他不希望银行的员工认为他们在时局艰难之际会弃甲而逃。他决定留在意大利,不管未来有什么危机都要坚持下去,即便付出短期代价也在所不惜。

从数据海洋中寻找有价值的信息和应用,提高数据资源挖掘利用效率的新技术显得尤为迫切。复旦大学计算机学院教授朱扬勇认为,眼下相比于大数据产业的热门,对于数据学科的一些基础研究却乏人问津。他认为有必要建立一个专门的学科,可以叫数据科学或数据学,它为许多学科和领域的大数据研究提供基础理论和方法,在此基础上,再逐步形成细分领域的数据学,如:生物信息学、气象数据学、金融数据学、地理数据学,等等。

实体经济发展乏力,房地产投资受到打压,缺少其他投资渠道再加上一季度连续的大幅度降准让股市和股民为之疯狂。当 4 月 20 日深沪指数登上 4500 点高峰的时候,已经有不少股民开始期盼 1 万点高峰了。

做决策之时他并没有忘记那些数据,但最终他采用了另一种不同的思维方式。当然,他是正确的。商业建立在信任之上。信任是一种披着情感外衣的互惠主义。在困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬,这种感情上的东西是非常宝贵的,即便它不能为数据所捕捉和反映。

这意味着传统的按学科分类培养人才的模式也需要创新。大数据产业需要这样一批善于融合多学科知识的人才:既能立足于信息科学,探索大数据的获取、存储、处理、挖掘等创新技术与方法,也能从管理的角度探讨大数据对于现代企业生产管理和商务运营决策等带来的变革和冲击。多年来,有识之士一直建议,上海应加快跨学科人才的培养。此类人才不仅精通技术,更懂得如何将技术应用于商业决策。如果培养数据科学家的提议得到落实,将是上海创新人才培养模式的一个契机。

然而,在市场沸腾的背后,究竟是谁操纵和支配着资本呢?是散户?是庄家?是企业?又或者是政府?

这个故事反映出了数据分析的长处和局限。目前这一历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在这个时代,头脑无法理解的复杂情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。

数据分享利用需要立法

这个答案让你意想不到——也许,人工智能早就控制了一切。

但有,些事情是“大数据”不擅长的,下面我会一一道来:

如果说干草垛效应的解决之道,还能依靠新技术的研究、跨学科人才的培养来解决;那么合理规范使用大数据,更会倒逼互联网法律规范的完善。

半自动的交易系统

计算机的精确量化、实时结算和全球联网的特性,支撑了现代资本在世界范围内的流转。计算机技术在现代金融系统里起着基础性的地位,我们可以换个说法:

没有计算机就没有现代金融。

然而对于人工智能在资本市场中的作用就没有那么容易界定了,因为时至今日一些在金融领域的人工智能尝试还游走在法律的边缘。

关于人工智能在资本市场中崭露头角最早可以追溯到 2005 年,那一年美国 SEC 为了保护市场公平,出台了一个名为 Reg NMS(Regulation National Market System)的法律。它原本的目的是为了保护投资人的利益,建立了一个用于计算公允价格的全国市场中心。然而这一举动却意外的给高频交易系统开了口子,让高频交易系统可以利用计算能力和传输速度上在 NMS 和各家交易所之间打时间差,实现人类「不可能完成的」交易。

2010 年,在美国由机器操盘手来取代人工操作已经成为主流。芝加哥联邦储备银行的报告指出,美国股市总体成交量中约有 70% 通过「高频交易」完成,而进行「高频交易」的机构数量仅有 2%。
高频交易只是一个半自动的交易辅助工具,而最终的决策权仍然掌握在投资人的手中。高频交易系统像是一个装在手枪上的半自动发射装置,在投资人决定购买或卖出的时候能够更加快速的执行决策。

数据不懂社交。大脑在数学方面很差劲(不信请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合作的行为,擅长用情绪为事物赋予价值。

大数据价值的体现,离不开共享,但由于相当一部分数据涉及普通人隐私,因此数据的使用,尤其是商业使用,应该有权益边界。比如,数据收集原本应该告知客户其商业目的,但大数据时代来临后,挖掘出的数据很可能转换为其他的应用。上海交大媒体与设计学院教师、新媒体专家魏武挥举例,目前相当一部分个人数据,已经掌握在不同机构、公司手中。例如,公安交警部门有驾照信息、银行有信用卡账单信息、医院有健康信息。设想有一天,一些商业机构以提供更精准服务为名,同时拥有了这些原本分散在各个机构间的数据,挖掘出潜在商业价值,推送更多商品广告作为消费者是否会不胜其扰?

全自动的交易系统

而真正让人工智能引入资本市场成为可能的其实是 Twitter 的诞生与普及。

2011 年 5 月,世界上首家社交媒体对冲基金诞生——Derwent Capital Markets 屡次跳票之后在万众瞩目之下上线。这是人类历史上第一个通过对社交媒体——Twitter——上大众舆论情绪判断做出投资决策的对冲基金。它实时接收 Twitter 等社交媒体上的信息,将所有用户产生的与目标股票公司相关的推文化为积极、平稳和消极三个情绪指标,再根据情绪指标进行投资决策。

研究人员发现,通过 Twitter 大数据进行投资决策,虽然不能预测突发事件,但能在没有突发事件的情况下获得一个较为稳定的高收益率,并能在突发事件发生时最快速的做出响应。

广发证券近期发布了一篇研究报告,通过更为简单的方式研究了国内舆论对资本市场的影响——统计百度新闻下的沪深 300 指数成分股的新闻数量,一旦某上市公司的新闻突然增多就视为利好,反之则视为利空。广发证券利用 2011 年-2014 年 5 月 2 日的历史数据回测发现,通过监测新闻的多寡,可以实现 37.03% 的年化收益,而同期沪深 300 指数却下跌 16.24%。而模拟数据显示,2009 年以来,中证百度百发策略 100 指数年化收益为 40.9%,同期沪深 300 指数年化收益率为 3.3%。

曼彻斯特大学和印第安纳大学在 2010 年 10 月共同发表的一篇论文中还提到,推特用户的情绪变化会在指数波动后的 2 至 6 天内反映出来,这类信息在指数预测准确率方面达到 87.6%。

越来越多的投资机构、投资人、券商开始使用社交媒体和大数据来做出投资决策。一个投资行为从观测市场、得出结论到执行行为全部由机器控制。

事情到此为止一切看起来都很美好,炒股者终于从无聊的信息收集和盯着满屏幕的红绿数字中解放了出来,双手离开键盘也能赚钱。只是并没有人意识到,那些自诩为人类中最聪明的人——金融从业者们——已经从他们自己的手中交出了决策权,资本市场的扳机已经完全交给了机器。

计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况,但是他们不可能捕捉到你心底对于那些一年才见2次的儿时玩伴的感情,更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此,在社交关系的决策中,不要愚蠢到放弃头脑中那台充满魔力的机器,而去相信你办工作上的那台机器。

再如,以前数据的保存有时效性,过了规定的时间,数据自然会销毁。但在大数据时代,数据即使在A公司被销毁,也有可能继续留存于B公司的数据库中。换言之,数据会一直保留着,使用界限也随之模糊,从而造成更可怕的潜在威胁。

机器写作与社交图谱

「天网」在资本市场上的布局我们已经很清楚了,是时候将目光转向资本市场以外的地方。因为,要证明人工智能从人类的手里夺走资本的控制权还要关注一下这个领域——媒体与舆论。
2013 年 5 月,美联社(Associated Press)的 Twitter 帐号发布了一条假消息:「特大新闻:白宫发生两起爆炸伤及总统奥巴马。」很快,来自其他渠道的消息证实总统毫发无损,只是美联社的 Twitter 帐号「被黑了」。

然而假消息为股票市场带来的巨幅波动显然比假消息本身更加令人关注。假消息发布当天,道琼斯和标准普尔股票指数一度暴跌 1% 以上,千百亿美元的市值就此蒸发。

这显然意味着,Twitter、Facebook 等社交媒体已经成为了资本市场的重要风向标。无论在阅读这些推文和状态的是投资「人」也好,还是机器也罢,社交媒体上的一举一动都在影响着资本市场对一个企业、地区乃至一个国家的判断。

然而,可怕的是,人工智能已经渗透到了媒体和社交媒体中。

Automated Insights 这家由 Robbie Allen 创建的公司成立于 2007 年,总部位于北卡罗来纳州的德汉姆。这家人工智能公司的主要研究方向是机器写作,Robbie Allen 在公司创建之初为公司定下使命:要创建下一代基于技术的伟大媒体公司。

而 Automated Insights 也确实如 Robbie Allen 所愿——自 2007 年起,该公司开始为美联社、雅虎、康卡斯特等主流媒体提供机器生成的报道。

仅 2014 年一年,Automated Insights 旗下的自然语言生成平台 Wordsmith 就为其客户创造出了 10 多亿篇文章和报道。这些内容涵盖商业、智识、金融、房地产、体育、销售报告、还有更多。

Automated Insights 宣称 Wordsmith 并不会生成蹩脚的文章,而是通过对原始数据的抓取自动转化撰写出有深度、有个性并且像人类写手那样有鲜明特色的叙事文章,并且文风可以根据不同的场合和个性进行调整。

根据用户反馈,没有人发现这些媒体在使用机器人进行写作。

自然,那些收集大数据用于投资决策的人工智能显然也不会发现他们所收集的是由另一群人工智能所创造出来的信息。

到这里,两件美好事情的相遇就诞生了一个逻辑上的悲剧。

数据不懂背景。人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的。经过数百万年的演化,人脑已经变得善于处理这样的现实。人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普普通通的小说,数据分析也无法解释其中的思路。

市科委信息技术处正酝酿组建大数据产业联盟。据相关负责人介绍,联盟中大多数成员仍以科技企业为主,我们特别希望有法律界人士参与进来,一起规范数据的属性。依法用好数据,是大数据产业不可回避的问题。越来越多的业内人士正在形成共识:对数据分享利用设定法律约束,已刻不容缓。中国互联网协会法律专家胡钢律师认为,对于商业机构来说,数据的保存、共享,应当遵循最少、够用标准;从社会的角度来说,互联网法律法规重要性凸显,急需做出相应的调整。只有多管齐下,才能应对隐私问题的挑战。

人工智能的反馈递归

想象一下这个场景:自动写作系统撰写了某一家公司的唱衰报道,这篇报道经过社交媒体传播后被自动交易系统所识别并作为抛售决策的依据,该公司的海量股票被抛售,而自动写作系统侦测到了这一异动之后撰写了第二篇报道,这篇报道又再次引发了更多交易系统的跟进。这家公司股票的暴跌又引发了交易系统对相关公司交易的操作,最终引发出一场海啸。

不要说这是不可能的事情,这也许已经是从最简单、最不神秘学、最不阴谋论的角度来论述自动交易系统和机器写作之间可能存在的问题。

虽然在以往的资本市场中也存在这种反馈,但是这一次的反馈却是由两种分工明确完全不顾及对方考虑的人工智能所完成。

机器的决策是快速且不透明的,这种链条一旦达成将很难中断,即便是有人意识到这一切是错误的。

我们很难把资本市场从实体经济、政治和人文社会中分离出来,因此我们很难说有一个人或一个单一的组织控制整个资本市场。然而,从另外一个角度来看,人工智能却正无处不在地控制着每一个影响资本市场的要素。

实体经济以外,政治政策可能是影响资本市场最重要的要素之一。然而,政府决策对大数据的依赖也让我们对中断这一链条感到绝望。

人工智能像是病毒一般渗入每一个由数据驱动的决策节点,这些节点之间的互动反馈让由网络连接起来的人工智能像是神经系统一样「思考」。

数据会制造出更大的“干草垛”。这一观点是由纳西姆•塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出的。随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。

关注大数据潜在风险

深度学习与不可控力

我们总是认为机器是由人类制造出来的,因而我们对机器拥有 100% 的掌握。然而就像是人类历史上从来没有制造出过一台完美的机器一样,当我们的智慧开始涉足人工智能的时候结果一样不可能完美。

在自动交易系统和机器写作之间产生的啸叫只是我们目前可以预见的最简单也是最粗暴的一种陷阱,而更为可怕的是两种系统会在深度学习的系统上相互适应,而在这一过程中人类几乎是插不上手的。

也许很多人对于机器学习的理解可能还都停留在教微软小冰说话的程度上,然而深度学习算法早就已经让人工智能脱离被动学习向主动学习的方向进化。

我们在这里没有必要讨论深度学习算法是如何完成一个个不可能完成的任务的,我们只需要明确一点:在许多领域,深度学习算法都以无监督学习的形式出现,这也是这些算法能被应用于其他算法无法企及的无标签数据的重要原因。

用最简单的例子来解释深度学习在资本市场上的运用也许是这样的:如果我们假定社交媒体上的内容与资本市场存在着一定的联系,那么我们只需要为一个人工智能提供过去 5 年的资本市场数据和社交网站数据。那么当这个人工智能在得到一些新的社交网络数据时,它就会告诉我这些信息对资本市场的影响是什么。

糟糕的是,这是一个授之以鱼的过程。人工智能并不会告诉你这些信息为什么会如此影响资本市场,它只是简单地预测事情会如此发生。因而,你无法用人类的逻辑去尝试理解这些人工智能。

人们对人工智能的信任,来自于它们的过往战绩。而这种无条件的信任(不信你就赚不到钱),绝对不会让人们在这些人工智能酿成大祸之前关掉它们——无论这个人工智能工作在纽交所、美联社还是白宫里。

大数据无法解决大问题。如果你只想分析哪些邮件可以带来最多的竞选资金赞助,你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势,你就不可能找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么?人们对此争论不休,尽管数据像海浪一般涌来,就我所知,这场辩论中尚未有哪位主要“辩手”因为参考了数据分析而改变立场的。

大数据突然大热,也令不少IT企业跃跃欲试,但理性来看,大数据产业的成熟,离不开分步走战略。商业数据处理与分析公司邓韩贝中国区商务总监李焕民认为,第一步是企业对自己内部拥有的数据做前期整合与应用,例如在企业内建立数据仓库等,满足企业通用性决策的需求。第二步是走出企业,做企业内外部数据的融合与分析。比方说,对一家银行来讲,由于信用卡支付涉及到不同行业的零售商或品牌,只是分析自有的信用卡数据,很可能无法完全理解客户的真实需求,这就需要整合不同商家的信息进行分析。第三步是成为一家以数据驱动的、以顾客为中心的新型公司,这会涉及到管理思路的变革。

好吧,这和我有什么关系?

好吧,所有这些东西和中国股市的关系并不是很大。至少就连高频交易系统在中国的交易模式下都还不能实现。

但是,也许在美国和西欧的资本市场上将很快成真。

什么?你说这和你么有关系?

你还不明白事情的严重性么?

你可以不炒美股,甚至不炒股。不购买理财产品,不做任何投资行为。你自认为自己和资本市场完全无关。然而当世界资本市场的任何一脚发生动荡的时候——比如 2008 年的次贷危机——你银行里的存款会消失,你的公司会发不出工资,而社会保险也会因为不利的资本运作而被榨干。

更进一步说,资本是人类现代社会的血液——人类所自豪的全球化社会,专业化分工,高度发达的物质和精神文明,商品社会的一切一切无一不依赖着资本这一润滑剂运转着。失去资本,整个现代社会很快停摆。

不过现在好了,这与你确实没有什么关系。因为很快,资本市场和整个人类都没有关系了。

本文作者@评论尸 首发于微信新媒体:赤潮AKASHIO(微信号:AKASHIO)-此言此思若潮水,不沾红尘自风流。转载请保留本信息。

澳门威呢斯人赌场 3

扫描二维码关注微信号

数据偏爱潮流,忽视杰作。当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。但是,一些重要的(也是有收益的)产品在一开始就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。

思考得更远一点,越是热门的新产业、新概念,越是需要我们用理性和谨慎态度对待。大数据是否就能拯救一切,它真的无所不能吗?在一些业内人士看来,大数据并非无往不利的商业利器。随着我们掌握的数据越来越多,可以发现的、统计上显著的相关关系也越来越多。这些相关关系中,有很多是没有实际意义的,在真正解决问题时很可能将人引入歧途。因此有专家建议,在积极推动大数据产业的同时,我们仍需要一批清醒的建言者和智库,他们时刻关注着大数据潜在的风险,并提醒决策者,不要把鸡蛋全部放在大数据一个篮子里,除了大数据之外,还有一些思路和方法同样具有价值。

数据掩盖了价值观念。我最近读到一本有着精彩标题的学术专著——《‘原始数据’只是一种修辞》。书中的要点之一就是,数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。

正如魏武挥所言,我们不能过分倚重大数据的作用,忽视了人脑所擅长的理解力和因果判断能力。一项正确、伟大的决策,不仅依赖于冷冰冰的数字分析,同样也依靠决策者的经验、直觉这些恰恰是数据所无能为力的。

这篇文章并不是要批评大数据不是一种伟大的工具。只是,和任何一种工具一样,大数据有拿手强项,也有不擅长的领域。正如耶鲁大学的爱德华•图弗特教授(Edward Tufte)所说:“这个世界的有趣之处,远胜任何一门学科。”

 

编译自:《纽约时报》,What Data Cannot Do
文章图片:(小图)computing.co.uk;rwconnect.esomar.org

编辑:互联网 本文来源:和人类一点关系都没有,什么是数据分析做不了

关键词: