数据科学家依赖流行的编程语言进行探索性数据分析和统计回归。这些开源工具支持预构建的统计建模、机器学习和图形功能。这些语言包括(在 “Python 与 R:有哪些区别?”中阅读更多内容):
R Studio:一种用于开发统计计算和图形的开源编程语言和环境。Python:它是一种动态、灵活的编程语言。Python 包含许多用于快速分析数据的库,例如 NumPy、Pandas、Matplotlib。
为了便于共享代码和其他信息,数据科学家可以使用 GitHub 和 Jupyter Notebook。
一些数据科学家可能更喜欢用户界面,两种常见的企业统计分析工具包括:
SAS:用于分析、报告、数据挖掘和预测建模的综合工具套件,包括可视化和交互式仪表盘。IBM SPSS: 提供高级统计分析、大型机器学习算法库、文本分析、开源可扩展性、与大数据集成以及无缝部署到应用程序中。
数据科学家还应精通大数据处理平台,例如 Apache Spark、开源框架 Apache Hadoop 和 NoSQL 数据库。他们还应熟练使用各种数据可视化工具,包括业务演示和电子表格应用程序(如 Microsoft Excel)中包含的简单图形工具、Tableau 和 IBM Cognos 等专用商业可视化工具,以及 D3.js(用于创建交互式数据可视化的 JavaScript 库)和 RAW Graphs 等开源工具。为了构建机器学习模型,数据科学家经常借助 PyTorch、TensorFlow、MXNet 和 Spark MLib 等框架。
鉴于数据科学的陡峭学习曲线,许多公司正在寻求加快 AI 项目的投资回报;他们经常难以招聘到发挥数据科学项目的全部潜力所需的人才。为了弥补这一差距,他们转向多角色数据科学与机器学习 (DSML) 平台,从而促进了“公民数据科学家”职位的出现。
多角色 DSML 平台使用自动化、自助服务门户和低代码/无代码用户界面,因此,在数字技术或专家数据科学方面的背景很少或没有此类背景的人可以使用数据科学和机器学习来创造业务价值。这些平台还通过提供技术性更强的界面来支持专家数据科学家。使用多角色 DSML 平台可鼓励整个企业范围内的协作。