安顺信息港

当前位置: 首页 >汽车

三超越预测使用大数据解决政策问题2019iyiou

来源: 作者: 2019-05-14 17:49:51

【编者按】预见未来,是一件玄幻而神奇的事情。但是近年来机器学习技术取得巨大突破,它可能会广泛应用在科学发现预测、政治预测、社会事件预测乃至人类文明发展的预测上。近日,Science推出了一个关于「预测(prediction)」的专题,通过多篇文章解读了上述多个领域的研究进展和面临的挑战。本文为下篇。

本文转载自science,作者BARBARA R. JASNY/RICHARD STONE,机器之心翻译,亿欧,供行业内人士参考。

三、超越预测:使用大数据解决政策问题

近,科学、产业以及政府领域分析的爆炸增长,以寻求「大数据(big data)」的帮助来解决各种问题。日益增长的大数据应用使用了有监督的机器学习(SML/supervised machine learning)工具。在描述这一工具有望用来解决临床医学问题时,Obermeyer等人评论到:「机器学习……就像医生通过实习获得进步那样来解决问题:从数据中学习规则。开始是病人观测值,然后算法筛选大量变量、寻找可靠的预测结果的组合……机器学习的优势就是可以处理大量预测因素(predictor)——有时还惊人地预测因素比观测值还多,并以非线性、高度交互的方式将它们组合起来。」

SML技术初出现在计算机科学和工程学领域,已被广泛用于工程应用,比如搜索引擎和图像分类。近,用这一方法解决科学和政策问题的应用数量也越来越多。在公共领域,这一方法模型已经被用于刑事司法制度(2);使用移动数据、卫星图像或谷歌街景(3、4、5)预测经济状况;分配城市火警、健康监察点等,以及各种城市应用。该技术已经被用于分类文本中的政治偏见(8)以及评论中的情感分析。在医学领域,基于有监督的机器学习预测算法已经被医院用于按照病人的并发症的风险预测病情,优先安排病人的医疗干预(10),该技术还被广泛用于多种其它医疗应用,包括个性化医疗(1)。

有监督的机器学习的迅速普及部分归功于数据、计算技术以及资源、数据分析技术、开源软件方面的进步。另一个因素这些技术被设计用来解决的问题很简单。现成的预测技术要发挥作用几乎不用什么假设(assumption):环境必须稳定、其行为正被研究的单元个体不会互动或相互干扰。在许多应用中,SML可以被对问题领域所知甚少的科学家成功地加以应用。比如,Kaggle公司主办的预测竞赛中,赞助商提供数据组,来自世界各地的选手提交的作品常常能成功预测,无论其关于问题的背景多么有限。

然而,对纯预测方法的局限性的关注要少得多。当这一方法被用于现成的预测,而没有理解基本假设或确保满足诸如稳定性等条件时,结论的有效性和有用性就会受到损害。一个更加深入的担忧时,只使用预测技术是否就能解决给定问题,或者是否需要对干扰的因果效应(causal effect)进行评估的统计方法。

Kleinberg等人(11)强调了这一情况,现有的SML技术可以部分(但无法全部)解决健康政策领域的资源分配问题。他们考虑的问题是决定是否通过医疗保险给否则不合格的病人做髋关节置换手术。他们使用SML预测概率(一个要进行关节置换手术的患者是否会因其他因素在一年内死亡),以及识别那些处在特殊高风险,不该进行关节置换手术的患者。他们认为:「好处会随着时间的推移自然显现,因此,如果某人能获得够久来享受手术的好处,那么手术才有意义;给不久就会死亡的病人置换关节没什么价值——浪费金钱,给生命的徒增不必要的痛苦。」

这类问题中,聚焦预测的基本原理是很明显的;我们知道,一个干预的平均影响,在某种世界状态下,也是负面的(如果病人很快死亡),因此,预测世界状态足以用来预测是否放弃手术这一决定。不过,作者强调了这一事实:纯粹的预测方法并不能解决更加复杂的问题,比如,在那些可能存活超过一年的病人中,哪些病人该被给予的手术优先性。一个完整的资源分配问题需要评估手术效果的异质性,比如,因为一些病人有更高的手术并发症。将稀缺资源优化分配给手术效果能改善其福利的病人,是一个更加困难的问题,这个问题太长需要回答反事实的问题:采取那些以前从未实施过的各种替代分配政策后,会发生什么?

在另一个资源分配样例中,产业领域很常见,就是使用SML预测客户流失(即消费者放弃一家公司服务)的概率,然后公司对那些具有高度流失风险的用户给予干预(比如扩大销售人员的服务范围),以这样的方式解决问题。Ascarza (12)记录了采取这类举措的公司,然后使用借鉴自因果推理论文献的方法提供了经验证明:根据一个简单的预测模型来分配资源,并非的做法。高度流失用户组群和可能回应干预组群之间的重合只有50%。因此,将留住用户的问题视为一个预测问题,为公司带来了更低的回报。

公共领域的资源分配问题是指一个城市应该优化分配监察点的地点,以小化安全或健康问题。纽约的Firecast算法是根据预测的违反概率来分配火警监察点。Glaeser等人(6)发明了一个类似的系统用于分配健康监测点(这对波士顿餐厅)的位置,该系统得到了应用,初步估计每次检查后,30%到50%的违法情况得到了改善。

如何优化监测点分配的决策问题将直接归于预测领域——如果以下简化假设为真:(1)被检查单个单位的行为是固定的;(2)识别出问题时,能立刻低成本加以解决,成本并不因为单位(unit)不同而所有不同。知道哪个单位更有可能违法,等于知道哪个单位应该得到监察。不过,更加现实的环境还集成了不同单位的异质性:一个建筑可能因为老化的电路而处在更高的失火风险中,但另一些考虑会让置换老线路变得困难。另一些单位的预测风险更低,但是,更容易做出实质改善,改善成本也低廉。另一个考虑是回应(responsiveness)。如果违法被处以罚金,一些公司会比其他公司对罚金更加敏感。整体说来,解决城市监察点分配的问题包括评估监察政策的因果性:在新的监测点分配机制下,你希望这个城市里单位(比如,食物中毒率)的整体质量有什么样的提升?

因此,预测和因果推论是本质不同的两个问题(尽管密切相关)。只有分析师超过这些预测方法来做出假设时,因果推理才是可能的;这些假设通常不能被直接测试,因此需要领域专家来进行验证。已经有关于因果推论的横跨多学科(社会科学、计算机科学、医学、统计学、工程学以及流行病学)大型文献来分析这类问题(参看Imbens and Rubin (13))。使用并非从随机测试中获取的数据来评估因果关系的办法之一就是针对导致微分检测概率(differential inspection probabilities)的因素进行调整,然后根据特定餐馆健康结果预测检查的效果(或许使用审计)。近期的方法进展关注的是调节大数据应用中观察到的混杂因素(比如,14–16)这一文献的主题之一就是现有的来自SML的预测模型招致了因果效果预测中的偏差问题,但是,持续有效的因果估计能够通过修改SML技术得以实现。

另一个用于估计因果效应的方法就是利用设计好的实验。Blake et al.(17)使用了一个以城市为基础的双重差法(difference-in-difference methodology)来评估eBay的搜索广告的效果(因果)。就像许多搜索广告商,eBay靠历史数据来测量搜索广告的好处,不过,也确实试着区分开因果性和关联性。而且,eBay使用一个简单的预测模型(其中,点击被用来预测销售)测量了广告的效果,他们发现广告点击的投入回报(也就是说,由点击所贡献的eBay销售与广告点击成本之比)大约为1400%。

通过使用实验数据测量广告效果,作者发现真实的投入回报为63%。天真的分析和实验结果之间存在鸿沟的部分原因是许多点击eBay搜索广告的用户本来是要从eBay买东西的。尽管点击广告强烈预示着一次交易——消费者通常会在点击之后迅速购物——实验揭示出,一次点击很难说有大的因果效应,因为不管怎么说,点击的消费者很可能要购物。

除了资源分配问题之外,纯预测和因果推断之间的区别几十年来一直是很多领域内方法和经验研究的主题。经济学对这个区别特别关注,或许是因为一些基本的经济问题,如在不同的价格下消费者的需求变化,不能通过纯预测模型来得到答案。举个例子,同一个产品在不同(假定的)的价格水平下,消费者的购买量是多少?虽然这个问题似乎看起来可以直接套用SML,将价格水平设置为一个说明性的特征(feature)来预测出销售量的「结果」。在实际操作时,如果SML被用作一个估计价格与销售量之间的因果效应的方法,这个方法将会很失败。假设,一个分析师有酒店价格和入住率的历史数据。一般情况下,价格和入住量是正相关的,因为酒店既有的价格政策(经常通过利润管理软件来制定)明确规定当酒店预订越来越满时酒店提高价格。直接套用SML技术的应用是为回答以下类型的问题所设计:如果一个分析师被告知在某天,客房价格非比寻常的高,那么这天准确的入住量预测是多少?正确的答案是入住量将很可能很高。相反,改变价格政策的影响问题是一个因果问题,并且一般经验表明如果公司执行一项新政策来系统性的提高酒店所有服务价格的5%,那么酒店将很可能会有更多房间被入住。另一个不同系列的统计技术将可以用于回答这样的问题,或许可以利用数据中「自然的实验」即一个被称之为「工具变量」的方法[13是对这些技术的回顾]。近,一些作者将SML的优势同这些传统小数据系列的方法结合起来了,为了用于估计典型因果效应和私人化的因果效应估计。

预测与因果推断之间的区别之外,仅为预测而做的方法优化也不能顾及到其他因素,这些因素可能在数据驱动的政策分析或者资源分配上很重要。例如,动机和可操控性可以很重要。如果一个建筑或者餐厅所有者依据这些特征,预料到被审查的可能性很小,他或她将减少安全措施上的投入。

在一个数据驱动政策的例子中,可操作性发挥了作用,不列颠哥伦比亚的市场定价系统(MPS)被用于对国有土地的木材收购的定价,这些国有土地是在长期租约下被分配给木材公司的。MPS构建出一个可以预测的模型,这个模型所运用的数据来自拍卖中木材的售价,该模型可以用于预测如果将长期租约下的一片土地的收获木材拍卖所可能达到的价格。但是,一个租约持有者潜在很可能有在拍卖中人为低价竞标的动机,从而达到影响模型对长期租约下收获木材的价格预测,也即降低了他们长期租约下收获木材的成本。作为模型选择过程的一部分,MPS的预测模型服从于仿真情境,使得任何单个大型木材公司都能实现各自的可操作性。这个已经实现的模型并不是一个具有的预测性能的模型,的预测模型具有期望拥有的鲁棒性而不是可操作性。

在实际运用统计模型时,很多其他需要考虑的问题涌现出来。有时候让利益相关者理解一个已做出的决定的缘由是很重要的,或者决策者可能需要记住一个决策规则(如医生)。基于透明度和可解释性的考虑,或许会导致分析师们偏好模型的简单性而牺牲模型的预测能力。另外一个需要考虑的是公平性或者说歧视。美国贷放款的消费者保护法禁止实际应用中有依据种族的歧视。一些公司可能希望运用SML方法从工作申请者中挑选出可以面试的申请者;但是他们可能希望在算法中设置多样性目标,或者起码可以阻止性别和种族的不平等。在SML的文献中可以看到这些问题在近受到关注(如21)。

总的来说,大数据如果想要在商业、科学以及政策上实现其全部潜力,从有监督的机器学习的文献来看,需要有由新的计算机算法所构建的多学科方法;同时还能带来使用经验证据来引导政策的数十年多学科研究的方法和实际学习。一个不成熟的但是快速成长的研究采取了这样的一个方法:例如,2016年的ICML(International Conference on Machine Learning)对SML方法的因果推断(casual inference)、可解释性(interpretability)以及可靠性(reliability)分别组建研讨会,虽然谷歌(22)、Facebook(23)和微软(24)的多学科研究团队已经开发出了可以使用的工具包,且这些工具包拥有为实现因果推断、实验性的设计以及估计资源分布政策的可扩展算法。随着其他领域持续加入和SM研究团体一起用大数据来寻求现实世界政策问题的解决方案,我们预计数据驱动的政策在算法提升和成功实现上将会有更大的机会。

四、预测人类行为:下一个前沿

机器学习的进步正在变革我们对线下(offline)和线上(online)人类行为的理解。从训练集中分类我们感兴趣的对象,无论这些对象是恐怖分子、需要维护的机器或包含恶意链接的电子邮件,其都代表了这一领域内的巨大成功。或许不存在一种机器学习算法能将所有都做好。虽然精度是至关重要的,但是可接受的精度程度是随着研究问题的变化而变化的,仅仅只有精度是远远不够的。研究人员经常解释为什么他们的预测是正确的,但是从不解释为什么他们的预测可能也是错误的。那么决策制定者同时了解这两部分的原因将有利于他们制定更好的决策。特别是在高风险的情况下,预测必须同时提供相应的解释,这样才能为进一步研究提供更深入场景理解。

预测模型还必须为潜在的未来行动提供一个或多个解决方案,这样决策者才能更好地决策。如今的机器学习方法并不一定满足这三个标准。因为构成理想的预测算法还是取决于现实应用。通常,利益相关集团(如社会媒体平台和搜索引擎)将对精度有不同的定义,从而满足其特定的需求。此外,行业专家可以使用领域内广博的知识建议在数据集内包含相关的独立变量。通常,他们将使用由预测模型生成的技术精度测量和他们的学科中的内容结合起来解释预测结果,所有这些都表明在现实世界体系中,计算机科学家需要和其他利益相关者进行合作而取得深远影响的结果。

在我们看来,下一代的预测模型需要解决以下四个主要的挑战。

首先,更多数据总会获得更好的预测模型这一格言并不总是正确的,因为数据中的噪点可能会压垮预测模型。处理噪点、不完整和不一致数据的能力将会是下一代预测模型的核心。例如,在推特上识别「bots」就是寻求在政治候选人上持正观点,而忽略寻求其它结果的大量「bots」。例如传播垃圾邮件、寻求在其他主题上影响他们的观点或欺骗用户点击链接从而为他们创造利润的机器人。此外,许多推特的数据是受到限制的,在一些情况下甚至会故意产生误导。所以机器人开发者就需要确保他们的机器人逃避检测。

第二个挑战是罕见事件预测。例如,公司监控其内部络来识别可能会窃取机密的用户将会包含所有公司雇员的在公司内部络活动的信息,其范围包括从对员工的邮件分析、上传(到站)到下载到内存存储设备等。许多雇员对公司是诚实的,只有一小部分可能会存在问题。在这样一个案例中,机器学习算法将很难从无辜用户(这种情况下,数据称为「不平衡」)中分离清楚那些「稀有」的个例,并且预测模型一般表现不太好。

预测新现象时保持模型的准确性是重要的第三步。社会运动常被分为五个步骤:导火索、社会动荡增加、发展组织核心成员、组织的维持和终止(假如运动终消亡了)。当事件还处于早期阶段(如有人开始在Twitter上抱怨),准确预测之后发展的动向可以让我们在其后更加激烈的冲突中受益。

第四个因素是人类的行为是动态变化的。我们的对手(如恶意软件开发者或恐怖分子)会不断适应环境。因此,高阶预测(关于预测模型的预测)的形式成为了关键。我们需要预测模型何时出错,或何时人们行的为将发生改变,因此我们在太多错误发生之前就可以开发出新的预测模型。OpFake Android恶意软件的开发者初设计这个病毒自动从受感染的发送短信给高价付费服务号码。后来,开发者调整了策略,也开始涉足银行卡欺诈。我们迫切地需要开发可以在发生时或甚至在发生之前识别这些危险行为的预测模型。

开源数据的爆炸和机器学习的发展彻底改变了我们分析人类行为的方式。在未来的几年里,随着物联的发展,这种多样性会出现又一次爆炸——异构数据。我们可能会遇到与不完整,不一致,不平衡和混乱数据相关的问题。生成准确预测和高质量分析的能力,包括对预测的支持和证据,以及提供可操作决策的能力,将是决定性的,因为机器学习系统将无处不在。一个数据驱动,多学科,多利益相关者的方法对于预测未来的模型而言至关重要。

五、特刊其他几篇文章的摘要

(一)民调:人民的脉搏

民调系统会成为民调预测工具,甚至替代品吗?传统的民意调查,无论是通过还是面对面的问询都是费时费力的方式。而且这类方式的有效回复率已经下跌至10%以下,只能为分析者提供一个带偏见的小型样本。而民调的方法,如Twitter分析可以让研究人员直接研究数百万群众的政治观点,实时更新,而且数据是免费的。然而无论传统还是Twitter民调都没有预测出去年11月份的美国大选结果。络看起来仍然无法让我们摸清人民的脉搏。但社会科学家相信它终究会是正确的方式。

(二)社会系统的预测与解释

社会科学研究者一直在寻求人类和社会现象机制的合理解释,却往往忽视了预测准确性。我们认为,社会科学越来越多的计算性质已经开始扭转对于预测的偏见了。但是仍有三个重要问题亟待解决:首先,目前用于评估预测的方法必须进行标准化;第二,复杂社会系统中预测准确性的理论限制必须得到更好地表征,从而设置对可以预测或解释的预期;第三,在评估解释时,预测准确性和可解释性必须被视为补充,而不是替代。解决这三大问题将使我们获得更好,更可重复和更有意义的社会科学。

(三)通过预测竞赛将概率判断用于政策辩论

政策辩论经常会受到不准确预测的影响,这让决策者难以评估和改进政策。一项由美国情报机构赞助的锦标赛展示了人们可以通过使用概率模拟来进行预测——即使是那些看似「独特」的事件。同时,它也证明了比赛是生产知识的有效工具。根据关于问责制影响的文献,作者认为竞赛具有很大潜力,可以作为消除政治辩论和解决政策争端的工具。

2007年福州A+轮企业
Jefferies上调中兴目标价称买进机会浮现
2018年武汉生活服务B+轮企业

相关推荐