与本文相关的图书推荐:《数据准备和特征工程》
如果你对数据科学感兴趣,你可能对这个工作流程很熟悉:用jupyter创建一个项目,然后开始编写python代码,运行复杂的分析,训练一个模型。当notebook文件随着函数、类、绘图和日志的增加而增大时,你会发现自己面前有一个庞大的代码块。如果幸运的话,项目有可能进展顺利,这再好不过了!
然而,jupyter中隐藏了一些深坑,不小心掉进去,就如同进入地狱。下面先看看这些坑是什么样的,然后探讨如何避免。
隐藏的问题下面这些情况,不知道你是否遇到过:
在某个地方定义了一类,然后实例化。后来又想修改它了,于是不得不返回来,修改,再执行该代码块。代码量少的时候无所谓,如果多了,会让你崩溃的。为什么把这么多东西都放在一个notebook文件中呢?难道不能分开维护吗?
由于Juputer的交互性和即时反馈,有不少人习惯在全局命名空间中声明变量,而不是使用函数。这在软件开发中被认为是不好的做法(