Informatica在云数据管道方面已经翻了一番

2024-11-16 14:42本站原创浏览：6937次

在过去的几年里，我们一直关注云原生架构如何改变数据库。通过将计算与存储分开，数据库提供商可以通过无服务器部署来简化操作。利用快速互联和廉价存储扩展复制，从而提高服务水平；并利用存储中的智能重新定义了事务提交的方式。

随着企业越来越需要处理来自数据中心内外的数据，集成平台即服务(IPaaS)已经成为一个竞争非常激烈的市场。IPaaS市场非常拥挤，包括一系列专注于应用和/或数据集成的提供商。

最近，我们有机会深入研究了Informatica的智能云服务(IICS)。这实际上是Informatica在云中的第二次尝试，因为它将整个Informatica产品组合重新设计为云中的本地平台。IICS于2016年推出，其Informatica产品组合的覆盖面最近达到了临界质量。

这家公司最近成了新闻，因为它已经达到了几个关键的里程碑。自私有化以来，该公司首次实现了10亿美元的经常性收入，他们刚刚宣布了一项变革，由产品总监担任首席执行官。

简单来说，Informatica也在数据目录中发现了一个bug。是的，我们对目录有自己的抱怨，因为我们总是认为数据目录应该是更广泛的集成解决方案的一部分，而不是它们自己的孤岛。但事实是，在大多数组织中，企业数据目录的概念将被证明与企业数据模型和主数据管理方案的实现一样实用和可能。反正数据目录有很多种。对于拥有或使用数据的人或部门组织来说，数据可能是一种个性化的东西，所以部门或部门级的数据目录具有非同寻常的承受力。好吧，我们说的是你。

因此，Informatica将其数据目录定位为“目录的目录”是现实的，因为大多数组织可能有多个目录。Informatica的目录被设计成一个连接组织，用于从不同的点获取元数据和发现关系。Informatica将其目录嵌入到其产品组合的元数据层中。

在离家更近的地方，Informatica的云集成平台即服务(IPaaS)。平台展示了将一系列不同的工具重新构建成基于云的微服务架构的可能性。

基于通用元数据核心，有不同的连接和集成层，触发摄取和ETL操作；用户体验；以及处理引擎，您可以在其中选择执行方法，例如Spark批处理和实时流。系统通过将处理推到数据存储位置附近来自动优化执行模式。例如，可以将SQL调用推送到数据库中，将Spark处理推送到数据湖中，将实时IoT处理直接推送到流引擎中。它允许工作负载的物理分离，以便可以同时执行接收、复制、查询处理、数据质量和数据分析，同时最大限度地减少或消除干扰。

通过将计算与存储分离，并将常见功能抽象为微服务，它允许平台利用无服务器操作，并消除了客户管理自动扩展的负担。通过重构数据管理服务的“核心平台”(如运行时、安全代理、集群、连接等。)，它可以促进重用，使系统能够更好地抵抗错误——，这是交付一致sla的关键。

当然，如果不强调机器学习的作用，任何关于托管云服务的对话都是不完整的，因为两者是共生关系。画云的关键点是操作简单，可以提供和管理云服务，服务商可以从客户如何使用服务的“学习”中提供指导经验，可以进一步简化操作，快速调试操作问题，否则沼泽人都在排除故障。反过来，通过运营托管服务，云提供商拥有有价值的日志，为ML模型提供数据。在我们2019年的年度展望中，我们谈到了云和机器学习以及数据库之间的关系。这同样适用于作为服务提供的任何平台，如投资促进机构。

ATICA一直在稳步增加机器学习在其服务中的使用，并将其命名为CLAIRE。它不是一个独立的特性或单一的算法，而是ML的保护伞，它自动化了差事以保持操作简单。例如，如果集成作业由于缓存问题而失败，CLAIRE将“响应”重新调整缓存的建议。虽然听起来不像解决世界饥饿问题的人工智能模型那么有说服力，但在托管云服务中，ML提供的适度优化(比如重新调整缓存)是有意义的。