投稿邮箱

digitcw@163.com

您的位置:首页 > 产业观察 >
为企业的云采用和控制带来全面可见性
作者:赵法彬   添加时间:2023-07-17
Cloudera助力企业在云端工作负载管理方面全面了解基础设施和服务支出。

QQ截图20230717155208.jpg

(文/赵法彬)对于企业来说,云的出现与应用极大地提高了工作效率,但是在混合云和多云环境已成为新的事实标准情况下,当今企业在云端工作负载管理方面所面临的最大挑战之一是无法全面了解基础设施和服务支出。

QQ截图20230717152900.jpg


释放Cloudera Observability功能

混合数据公司肯睿Cloudera近日宣布,Cloudera Observability现已面向所有在公有云或私有云环境中使用Cloudera Data Platform(CDP)的客户开放。问及开发Cloudera Observability的背景,Cloudera大中华区技术总监刘隶放告诉记者,在推出Cloudera Observability之前,Cloudera就有一个主要用于调优的产品叫Workload Management,并且这个产品已经提供了很长时间。它能够针对客户的一个工作负载,无论是什么样的产品引擎提出来,都能够帮助客户去优化和查询。对于任意一个系统,我们都希望这种查询能够跑出最好的效率,能最节省资源。特别在公有云上,如果跑一个查询用的资源更少,那么优化用的资源就会更少,肯定会带来经济效益,包括时间上面的优化。

QQ截图20230717155342.jpg

但是到了现在云化的环境之下,我们觉得光有调优是不够的。刘隶放进一步解释说,第一,对于一个云平台,无论是共有云还是私有云,系统的可控性和稳定性对运维人员能力有很大的要求。以前运维人员需要从容器化到大数据平台对整个平台都了解,如果没有专业知识支撑会给他们带来很大的压力,所以我们要帮助运维人员管控这个平台。第二,在包括公有云、私有云、混合云的云环境下,企业对系统资源的管控是非常重要的,特别是公有云,企业需要知道要用多少资源,需要在整个系统运维的过程中,系统资源的消耗有一个评判标准,包括如何优化。第三,确保平台的可控性和稳定性,能够最有效地在我们平台之上帮助运维人员迅速排查故障,在数据分析阶段,包括数据采集到数据自主分析,最快帮助运维人员做这样一个支撑。基于我们以往的分析经验,能够帮助客户快速收集分析数据,在此基础上面快速定位,跟我们后台的人员进行交互解决问题,提高问题响应的速度。

由于企业数据既存储在本地,也可能存储在多个公有云上,因此追踪管理不同部门和成本中心的云消费情况、保持平台稳定可控以及在这些不同基础设施上排查问题变得异常困难。刘隶放表示,Cloudera Observability依托Cloudera在混合数据解决方案领域的经验,使客户能够监控、了解和优化其CDP部署。客户还可以通过可自定义的自动操作和预先构建的操作,发出警报、主动避免问题并优化工作负载。Cloudera Observability让客户能够前所未有地了解工作负载和资源利用情况,从而更好地控制和自动管理预算超支,并提高性能。它为借助CDP实现的开放式湖仓一体带来了全新功能,通过提供数据、应用程序和基础设施组件方面的可执行洞察,来优化成本、自动解决问题并提高性能。客户可通过财务治理和云成本优化(FinOps)管理CDP的成本,从而避免预算超支,并能够为了规划进行容量预测。

那么,客户在使用Cloudera Observability的效果如何呢?刘隶放回答说,我们在已使用Cloudera Observability的客户平台上做了一个数据分析:第一,对于基础设施的回报,因为调优、预测、评估,可以有30%提升;第二,对于售后包括客户对外运维,自己SCL、SLA有43%的提升;第三,对于故障排查可以达到50倍的效率。


帮助客户构建自己的AI平台

谈到Cloudera全新的现成大型语言模型蓝图帮助企业安全可控地大规模使用生成式AI,刘隶放表示,Cloudera能够在公有云、私有云、本地部署平台上面,帮助客户构建自己的AI平台。Cloudera是一个数据的平台,是一个管理者,是真正帮客户管理可信任数据的这样一个公司,因此,客户才会放心地把数据放在我们平台上,根据统计,目前在我们平台上面跑的数据已经超过2500万TB,这与很多云的运营商整个的数据体量差不多。

QQ截图20230717155418.jpg

ChatGPT虽然很火,大家也都在做,但是为什么企业要跟一些合作伙伴去谈,而不是直接用公有云上面大的模型呢?因为这里有很多的要求。刘隶放分析说,第一,企业训练数据的背景跟自己的数据有非常大的相关性,在企业专业领域里面所训练的数据只与特定数据有相关性,这与用公网上面所有全量数据训练的结果不一样。所以客户关心的是自己的业务跟数据训练的结果,而不是公网上随便查出来的一个结果。第二,关联性和准确度会很重要,因为我们的客户基本上都是大型的企业客户,对他们来说这个准确性很重要,如果回答错误,有可能会对工作、生产带来很大的问题。客户需要一个可信的、正确的答案,这需要我们在内部,在数据合作厂商在我们基础数据上面帮助客户做一个准确的回答。我想随着这一块不断的发展,从行业来讲,金融、制造各个方面,也会有风险,安全合规的需求。

刘隶放表示,Cloudera传统是做大数据分析,做查询、数仓等,也做结构化、半结构化的数据,现在我们能够把以前的数据湖、数据仓库融合在一起,可以尽量在保持原始数据的基础上对其进行加工处理。大数据模型更像是把数据都放在里面,我们通过模型的数据训练,对包括可能会引入相应的数据库进行评估,通过交互的方式给出答案。因此,可能客户也要接受原来我们传统做的数据仓库、从数据到ETL、数据模型、SQL查询、对外报表等。

问及中国客户对数据存储的要求有哪些不同,刘隶放回答说,中国客户喜欢私有化部署比较多,也就是在私有云上做一些事情。当然,已经有中国的金融客户,开始在公有云上面有所尝试,但是绝大多数客户的生产数据一定要存储在私有平台上面。中国客户因为合规各方面的需求还是私有,即便是云也是私有云的部署比较多。在私有云部署的时候,即便是在本地也有伸缩,但是这个容量是要预估的,我们任何一个金融客户自己建一个数据中心,也是需要对数据的容量,包括现在需要的容量以及未来发展的容量,进行一个预估。

Cloudera这两年一直致力于在数据编织的基础上,帮助客户做数据的治理和管控。刘隶放解释说,Cloudera有像Spark这样的平台,能够帮助客户摒弃以前的只能做数据湖的短板,数据仓库和数据湖现在需要做一个融合,这需要对分析系统进一步改造。未来Cloudera转向要做一个AI的平台,并且已经做了不少工作,在这个基础上,Cloudera现在要对AI的模型进行匹配,主要参与三个部分:第一,我们CDP的基础平台是客户训练数据的基础数据,客户有2500万TB的数据在我们平台之上,这个是对客户未来的分析系统做分析提供数据的支撑。第二,Cloudera有一个数据加工平台,可以帮客户在这里面加工数据,同时我们也与包括像英伟达这样的硬件厂商做了很多项目。第三,在机器学习的平台上面可以嵌入LLM的模型,客户可以把他们所要用到的LLM模型嵌入到我们的CML里面,在这里面通过对模型的训练,在平台之上去部署AI的应用。

最后,刘隶放告诉记者,很多客户看到我们在一种管控的情况下面去嵌入LLM模型,非常感兴趣。但是从哪个角度入手,有没有一个安全可控的平台,Cloudera一直树立安全可控的这样一个形象。我们在与合作伙伴共同努力,如何把客户探讨的一些模型在我们平台上面加工,最后生成应用并对外提供服务。