智能营销笔记本服务商

营销笔记本+万能采集+AI名片+智能电销+短信群发=同步管理

免费咨询热线: 15064770313

机器学习高容量框架和平台的演变

大数据框架和云计算的可访问性使数据科学民主化。数据处理框架已经发展到可以使用、处理和建模非常大的数据源。再加上基于云的解决方案,处理时间现在使数据科学家能够专注于核心数据科学问题的解决,而不是争论系统、平台和工程问题。

现代数据科学技术堆栈的核心是分布式计算。这是指使用充当单个机器的机器网络来完成任务。这些分布式系统通常使用驱动程序/工作人员架构,其中系统中的一台机器是驱动程序,并充当工作人员机器的协调器,这些工作人员机器执行任务并向驱动程序报告。分布式解决方案提供了惊人的功能,但同样复杂,这可能会分散数据科学家的注意力。

随着分布式计算的发展,出现了数据处理方法的发展,以利用分布式容量的处理进步。一个这样的处理框架是 MapReduce:设计用于以可靠和容错的方式并行处理大量数据。

MapReduce 工作在两个主要阶段:输入数据被拆分成对并映射的 Map 阶段,以及数据被打乱然后归约的 Reduce 阶段。虽然 MapReduce 是分布式计算向前迈出的一大步,但它仍然有其缺点:

1) 限于批处理

2) IO 绑定到磁盘,导致不需要的计算时间

3) 专为与限制其用例的 Hadoop 一起工作而设计

MapReduce 的缺点促进了成熟的进步,Apache Spark 是一种开源统一计算引擎,比 Hadoop MapReduce 快 100 倍 [ 1]。在这个核心处理引擎之上,Spark 拥有用于 SQL、图形计算、流处理和机器学习的库,这些库使 Spark 成为最流行的大数据工具之一。Spark 还支持多种语言,例如 Python、R、Java、Scala 和 SQL。虽然 Spark 提供的速度提升本身就改变了游戏规则,但 Spark 成功的一个主要关键是“统一”组件。与 MapReduce 设计用于一种特定类型的存储不同,Spark 旨在支持各种持久存储系统,例如 Azure 或 Amazon S3 等云存储系统、分布式文件系统、键值存储或消息总线。在 Spark 之前,人们被迫使用不同系统、库和 API 的组合来完成大数据任务。但是使用 Spark 的大量库和 API,它可以通过具有一致的 API 集和高效项目代码库的同一计算引擎来解决。尽管 Spark 在提高易用性方面取得了巨大进步,但计算集群的配置、部署和管理仍然笼罩在一层复杂性中,随着集群的扩展而扩展。

由于使用分布式计算所需的开销和基础设施,云资源的使用是分布式计算解决方案的最佳选择。在本地硬件上使用云解决方案可以实现更大的灵活性和可扩展性。云解决方案使企业能够敏捷并快速响应变化,而无需承担与传统本地硬件相关的承诺。云解决方案可以随时扩大或缩小规模,而对涉及物理设备的基础设施进行更改则更加复杂和耗时。物理设备还需要维护和升级,这两者都可以通过云计算消除,因为这些负担落在了云提供商身上。云解决方案使企业能够利用分布式计算。

总而言之,引入了 Databricks 以提供一个真正统一的分析平台,该平台通过部署功能推动机器学习开发。基于 Apache Spark 构建并嵌入集群管理工具,使用 Databricks,可以:

  • 无需投资 IT 基础架构即可配置、部署和管理集群

  • 连接到各种节点类型,包括支持 CPU 和 GPU 的各种大小/配置的节点

  • 利用托管环境,包括 MLflow 的托管版本,这是增长最快的 ML 生命周期管理工具之一

  • 在 MS Azure 或 Amazon Web Services 上构建/部署

  • 与其他资源整合。Databricks 允许您在 Databricks 文件系统 (DBFS) 上创建挂载点,使您可以轻松地从 blob 存储、数据湖甚至 Amazon S3 存储桶访问数据。

  • 与 Azure 数据工厂集成,允许企业在其数据管道中利用其现有的 Databricks 服务来处理诸如 ETL 之类的事情。

  • 通过 Databricks 笔记本中内置的修订历史记录促进版本控制,并支持轻松链接到托管在 GitHub、Bitbucket 或 Azure Repos 上的现有 Git 存储库。

随着数据分析领域的各个方面继续以惊人的速度发展,数据处理和分布式计算的缺点显然是数据科学工作流程的痛点。事实证明,Databricks 及其功能套件可以消除我们项目的大量干扰。在 DecisivEdge,我们开发了一个基于 Databricks 的强大且可扩展的机器学习开发平台,使数据科学家能够专注于数据科学。因此,我们可以更快地交付项目并为客户提供更高质量的可交付成果。

智程网络科技_智能营销笔记本软件开发_大数据营销笔记本系统定制_营销软件-曲阜市智程网络科技有限公司