Corona时代的数据科学:需要(一些)重组

2020年5月19日,//迈克尔·贝特
数据科学
当前危机的巨大影响是显而易见的。然而,许多人还没有意识到的是,对正在进行的数据科学生产设置的影响也可能是巨大的。

当交通和购物模式发生变化,供应链中断,边界被封锁,人们的行为方式总体上发生了根本性的变化时,许多用于细分或预测的模型开始失效。有时,当新的数据开始代表新的现实时,数据科学系统适应得相当快。在其他情况下,新的现实是如此完全不同的新数据不足以培养一个新系统,或者更糟,系统内置的基本假设就不再拥有,所以整个过程从数据科学创造productionizing必须被重提。

本文描述了不同的场景和一些例子,说明当旧数据完全过时、基本假设不再有效或整个系统中的模式发生变化时将会发生什么。然后,我强调了数据科学团队在更新他们的生产系统时面临的一些挑战,并在总结时提出了一组建议,以建立一个强大的、经得起未来考验的数据科学设置。

影响场景:完全更改

最激烈的场景是底层系统的彻底改变,这不仅需要更新数据科学流程本身,还需要修改最初设计中的假设。这需要一个全新的数据科学创建和生产周期:理解和整合业务知识,探索数据源(可能替换不存在的数据),选择和优化合适的模型。这方面的例子包括交通预测(特别是在突然关闭的边境附近)、或多或少严格封锁下的购物行为,以及与医疗保健相关的供应链。

上述情况的一个子集是数据的可用性发生变化的情况。一个很好的例子是天气预报,其中相当多的数据来自配备了额外传感器的商用客机。那些留在地面上的飞机突然大大减少了可用的数据。关于天气发展本身的基本假设保持不变(暂时忽略污染和能源消耗的其他变化可能也会影响天气),因此“仅仅”对现有模型的再培训可能就足够了。但是,如果缺失的数据确实代表了进入模型构建的信息的很大一部分,那么建议数据科学团队也重新运行模型选择和优化过程。


您êtes确定吗?

如果你désactivez吃饼干,你就可以在这个网站上做导航了。

您可以être rediriger vers谷歌。

Baidu