2017 Top 15 Python 数据科学类库

近年来,Python 在数据科学领域得到了越来越多的关注,本文整理归类了使用率最高的数据科学类库,供大家参考。
NumPy、SciPy、Pandas 是 Python 数据科学的核心类库。NumPy 提供了 N 维数组、矩阵、向量等数据结构,能够进行高性能的数学运算;SciPy 包含了线性代数、拟合优化、统计学习的通用方法;Pandas 则一般用于数据清洗、探索型分析等工作。
可视化方面,Matplotlib 是最早流行的类库,提供了丰富的图形化接口,但 API 的使用方式偏底层,需要编写较多代码;Seaborn 构建在 Matplotlib 之上,重新定义了图表样式,更适合在报告、演示文档中使用,并且它还预置了诸多探索型分析函数,可以快速地对数据进行描述性可视化;Bokeh 主打交互性,它运行在浏览器中,让使用者可以方便地调节可视化参数;Plotly 也是一款基于页面的可视化工具,但因为是商业软件,需要授权后才能使用。
SciKit-Learn 是公认的 Python 机器学习标准类库,它提供了准确、统一的接口,可以方便地使用各种机器学习算法;深度学习领域,Theano 是比较老牌的类库之一,特点是能够运行于不同的系统架构之上(CPU、GPU);Tensorflow 则是最近较火的基础类库,使用它提供的各种算子和数据流工具,我们可以构建出多层神经网络,在集群上对大数据进行运算;Keras 则是一款较上层的工具库,底层使用 Theano 或 Tensorflow 作为引擎,可以通过快速构建实验来验证模型。
自然语言处理领域中,NLTK 提供了文本标记、分词、构建语料树等功能,用以揭示句中或句间的依赖关系;Gensim 则擅长构建向量空间模型、话题建模、挖掘大量文本中重复出现的模式,其算法都属于非监督学习,因此只需提供语料库就能得到结果。
原文:http://www.kdnuggets.com/2017/06/top-15-python-libraries-data-science.html
阅读全文