公司新闻

  • 首页Our News让我们来设计架构吧!批量数据处理系统设计 架构博客

让我们来设计架构吧!批量数据处理系统设计 架构博客

2026-01-27 14:44:35 24

系统设计:批量数据处理的架构探讨

关键要点

在将人工智能集成到产品中时,设计和实现强大的数据管道至关重要,以构建数据集和生成业务报告。批量处理的数据管道面临多重挑战,如确保数据质量、协调大数据作业和可扩展性等。本文将探讨在数据工程领域工作时的重要注意事项,包括数据质量管理、系统设计最佳实践和实现弹性的处理架构。

在将人工智能嵌入产品时,需要构建和实现强大的数据管道,以生成数据集和业务报告。然而,批量处理的数据管道面临共通的挑战:必须保证数据质量,以确保下游系统接收到良好的数据。此外,还需要调度系统来协调不同的大数据作业,架构也应具备可扩展性,以处理数TB的数据。

让我们来设计架构吧!批量数据处理系统设计 架构博客

这一期的 让我们架构! 将涵盖在数据工程领域工作时需要牢记的重要事项。这些概念大部分源自系统设计和软件工程的原则。我们将展现如何超越基础知识,确保你能够处理任何规模的数据集,包括用于训练人工智能模型的数据。

将软件工程最佳实践应用于数据

在软件工程领域,构建强大且稳定的应用程序与组织整体表现有直接联系。数据工程和机器学习则增加了额外复杂性:不仅需要管理软件,还涉及数据集、数据和训练流程以及模型。

数据社区正在不断融入来自软件社区的工程最佳实践核心概念,但仍有提升的空间。此视频讨论了如何利用软件工程实践为数据工程提供支持,并展示了如何通过衡量关键性能指标来构建更强大和更可靠的数据管道。你将从工程团队的直接经验中受益,了解他们如何构建自己的思维模型。

观看视频

在数据架构如数据网格中,确保数据质量至关重要,因为数据是与多个团队和利益相关者共享的关键产品。

使用 Deequ 扩展测试数据质量

数据质量是数据管道的基本要求,确保下游数据消费者能够成功运行并生成预期的输出。例如,机器学习模型受到“垃圾进,垃圾出”的影响。如果我们在一个损坏的数据集上训练模型,模型将学习不准确或不完整的数据,从而可能产生错误的预测并对业务产生影响。

检查数据质量对于确保我们管道中的作业生成正确信息至关重要。Deequ 是一个构建在 Apache Spark 之上的库,它定义了“数据的单元测试”,用于尽早发现错误,在将数据传递给消费系统或机器学习算法之前。你可以在GitHub查看它。欲了解更多信息,请阅读 使用 Deequ 扩展测试数据质量。

查看该项目

Deequ组件的概述

使用 Amazon EMR 扩展数据处理

大数据管道通常建立在像 Apache Spark 这样的框架之上,以转换和联接数据集进行机器学习。本次会议将解释 Amazon EMR,这是一个在受管集群上大规模运行计算作业的托管服务,非常适合在生产中运行 Apache Spark。

在本次会议中,你将发现如何在 4 小时内处理来自经纪商的超过 2500 亿个事件,以及来自交易所的超过 17 万亿个事件。FINRA 分享了他们如何设计系统以提升数据处理的服务级别协议SLA以及如何针对成本和性能优化平台。

观看 reInvent 视频

数据管道处理数据并将其引入数据目录,以方便发现和消费。

Amazon 管理工作流 Apache Airflow 研讨会

Apache Airflow 是一个开源工作流管理平台,用于数据工程管道:你可以将工作流定义为任务序列,并让该框架协调其执行。

Amazon 管理工作流 Apache AirflowAmazon MWAA是 AWS 云中 Apache Airflow 的管理服务。此研讨会是学习 Apache Airflow 的良好起点,了解如何将其用于你的数据管道,并获取在 AWS 上运行的实践经验。

参与此研讨会

本研讨会展示了如何实施从数据获取到模型推理的机器学习工作流。

下次再见!

感谢你的阅读!下次我们将讨论流数据处理。要查看本系列的所有文章,请访问 让我们架构! 页面。

标签 让我们架构

Luca Mezzalira

Luca 是位于伦敦的首席解决方案架构师。他撰写了多本书籍,并且是国际演讲者。Luca 在解决方案架构领域贡献了他的专业知识,并因以微前端技术革命化前端架构的可扩展性而获得认可,从提高工作流程效率到确保产品质量均有所涉及。

Federica Ciuffo

Federica 是亚马逊网络服务的解决方案架构师,专注于容器服务,热衷于用代码构建基础设施。在办公室外,她喜欢阅读、绘画,并与朋友们一起尝试不同餐馆的新食物。

一元云购官网

Vittorio Denti

Vittorio Denti 是位于伦敦的亚马逊机器学习工程师。他在米兰理工大学Politecnico di Milano和 KTH 皇家技术学院KTH Royal Institute of Technology完成计算机科学与工程硕士学位后,加入了 AWS。Vittorio 在分布式系统和机器学习方面有背景,对软件工程及最新的机器学习科学创新尤为热爱。

Zamira Jaupaj

Zamira 是位于荷兰的企业解决方案架构师,拥有超过10年的多国经验,在小型和大型企业中设计和实施关键和复杂的解决方案,涉及容器、无服务器架构和数据分析。

订阅我们的时事通讯

获取更多更新