最新版本的Cloudera Data Platform采用通过NVIDIA技术加速的Spark 3.0,能够帮助操作团队实现8倍性能提升,从而成功运行一项原本不可能完成的工作。
Deborah Tylor凭借坚持不懈的精神以及正确的的工具,完成了一项原本不可能完成的任务。
作为一名数据科学家,Tylor的任务是整理美国国家税务局超过300 TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。
她在早上回来时发现这项工作失败了,于是她再次尝试,但再次失败了。
就在这时候,Cloudera的解决方案工程师Nasheb Ismaily敲开了Tylor的老板——Rahul Tikekar的门。Rahul Tikekar是美国国税局数据分析师技术支持团队的经理。Ismaily询问Tikekar的团队是否需要使用自带GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP)。
Tikekar表示:“我抓住了这次机会。虽然我们的独立服务器配备了NVIDIA显卡,但我们却无法在分布式集群上使用Spark来运行它们,所以这对我们来说是一个绝佳的机会。”
突破障碍
对软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。
Ismaily召集了NVIDIA数据科学家团队来检查代码的核心内容。他们很快就发现一些数据结构非常糟糕的任务仍在CPU上运行。于是他们编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中。RAPIDS是一个在GPU上运行数据分析的开放资源库。
Tylor又进行了一次测试,结果发现一切都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。
美国国税局研究和应用分析与统计部门技术主管Joe Ansaldi表示:“通过Cloudera和NVIDIA的这一技术整合,我们能够利用以数据为依据的洞察来推动关键任务用例。”
“我们目前正在应用这一技术整合,这使得我们的数据工程和数据科学工作流程以一半的成本获得了超过10倍的速度提升。” Ansaldi补充道。
Spark 3.0 + GPU = 新视野
美国国税局团队正在探索这项技术应用可能带来的一些回报。
凭借由GPU驱动的服务器所组成的Spark集群,该团队能够加速目前所有的工作并运行其他以前被认为不可能实现的工作。并且这些工作可以帮助该团队处理他们所掌握的大数据集。
Tikekar表示:“在Spark 3.0之前,我们不可能完成这些工作,但现在我们通过GPU大幅提升了速度并且可以期待以此解决之前无法解决的问题。”
绘制AI路线图
该团队计划把其成功经验运用在数据准备,也就是数据分析中的提取/转换/加载(ETL)方面的工作上。下一步重大计划是加速各类AI推理工作。
Tikekar表示:“与Cloudera和NVIDIA的这一合作帮助我们能够在集群中驾驭GPU。当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用,所以Deborah Tylor确实为我们制定了新的路线图——她是整件事中的主角。”
具体而言,该团队接下来致力于通过建立大型深度学习神经网络来进行自然语言处理和分析。
丰富的机器学习应用
这正是许多企业今天在寻求的机器学习转型。
“我个人认为机器学习具有令人难以置信的潜力,使过去难以实现的事情成为可能。”Tikekar表示。作为一位计算机科学博士,他于13年前加入国税局,此前曾在南俄勒冈大学任教十年。
“例如,现在我们可以扫描表格,然后使用光学字符识别来阅读其中的片段。但有了AI之后,我们可以更加高效地阅读表格并找到有助于识别身份盗窃或减少浪费的规律。很多应用在许多方面都受益于AI。” 他补充道。