亚马逊云科技前1000名客户中,有超过94%的客户,使用了10种以上的数据库和分析服务。
在用户从上云到用云的过程中,数据被置于更重要的地位,面对市场需求,云计算巨头会怎么做?
文|石兆
编|牛慧
2022年,是企业从上云到用云的深入阶段。根据IDC的报告,2022上半年,中国公有云IaaS市场同比增长27.3%,但PaaS同比增速为45.4%。“当下,企业建设的重心已从基础设施层面,往平台层、应用层上走,更多聚焦在PasS层,比如进行数据中台的建设,或对应用进行微服务化改造、搭建DevOps平台。”IDC分析师告诉数智前线。
这一趋势在“2022亚马逊云科技re:Invent全球大会”上,也得到印证。亚马逊云科技大中华区产品部总经理陈晓建告诉数智前线,数据是每个组织数字化转型的基石。亚马逊云科技前1000名客户中,有超过94%的客户,使用了10种以上的数据库和分析服务。
“针对场景,选择适合的数据库和数据分析业务非常重要。”陈晓建称,“但数据处理很棘手,这也是亚马逊云科技构建云原生数据战略的原因,为特定场景,定制化开发合理的工具,从而将数据更有效地转化为见解和行动。”
在“2022re:Invent全球大会中国巡展”北京站上,亚马逊云科技就企业用云所涉及的端到端数据战略、数智融合、云原生等趋势和创新,进行了深入解读。
01
端到端数据战略
端到端数据战略是帮助客户从数据的摄入、存储、查询、分析到可视化展现,再到人工智能,帮助企业降低数据分析的门槛,安全合规地让数据转化为价值。
“它包括三个核心要素:一是构建面向未来的数据基础设施,二是实现高效、跨组织的数据一体化融合,三是借助教育和工具,实现数据普惠化。”亚马逊云科技大中华区数据分析产品总监崔玮介绍。
其中,在数据基础设施的构建上,亚马逊云科技遵循了四个原则。
首先,大一统的数据库,已经不合时宜。为每一种工作负载寻找最合适的数据库,可以让企业的每一个模块都达到极致性能。“尤其在应用微服务越深化之后,这种趋势就越明显。”亚马逊云科技数据库专家架构师经理吕琳称。数智前线获悉,在2022 re:Invent全球大会上新推出五项数据库和分析服务功能,提高PB级数据处理能力。
其次,大规模负载下实现高性能。比如,Amazon DocumentDB Elastic Clusters将Amazon DocumentDB集群弹性扩展到支撑百万级读写每秒和PB级存储容量的规模。
实现高性能也要尽量借助Serverless。Serverless是业界关注的话题,用户希望把时间关注于自身业务,而不是关注在云上如何管理物理资源。本届大会上,亚马逊云科技宣布,补上了数据分析服务Serverless的最后一块拼图,所有服务都可实现Serverless。它按照客户的用量去付费,能更敏感地自动伸缩释放资源,应用体验更好。
第三,AI、大数据等服务深度集成,消除繁重工作。当业务分布到不同种类的数据库后,怎么打破数据孤岛,让数据在数据库、数据平台,包括AI/ML之间流动,是一个挑战。亚马逊云科技提供各种工具,来解决这个问题。
第四是可靠性和安全性。如何能将数据分布到全球各地,提供跨区域灾备,又能提供一致性的体验,也是一个关键。
端到端数据战略的第二个核心要素是实现高效、跨组织的数据一体化融合。在今年re:Invent全球大会上,非常多的发布都是去实现跨组织的数据流动,以及已有系统之间的打通,这也是今年re:Invent大会非常重要的趋势。
亚马逊云科技举例,图片分享类社交网络Pinterest,在 Amazon S3 上存储了100 万 TB 的数据。这些数据来自多个部门、多项云服务、众多本地数据库以及第三方数据源。而要做到这一点,需要解决数据源获取和数据流通。
在数据源获取上,Amazon AppFlow和Amazon SageMaker,可以帮助用户更容易地连接到一些外部的数据源,比如Facebook Ads、LinkedIn Ads、Google Ads,Zoom Teamwork等。通过一些简单操作,获取这些数据源。
亚马逊云科技大中华区机器学习产品总监张洋告诉数智前线,一些中国客户出海做营销、客服以及扩展的时候,他们对海外并不是非常了解,而AppFlow支持50多种SaaS服务相关的数据引入,客户在海外,需要使用LinkedIn Ads或Facebook Ads、Google Ads的时候,可以引导服务商帮他们更好的扩展业务。同时,他们在国内一样可以把这些数据拉回到自己的平台上,用他们熟悉的数据分析的软件去做洞察。
在数据打通上,比如Amazon Athena和Spark的集成,在小于1秒的时间,可以让Amazon Athena用户,把Spark任务跑起来。Amazon DataZone也是解决数据流通的重要发布。它可以让数据安全高效的注册进来,被所有部门可见,从而实现利用。
亚马逊云科技在本次大会上发布了多项全新的集成功能,帮助客户实现“Zero-ETL”(零ETL),客户无需再次手动构建数据管道。还有一些其他服务更新,如Amazon Clean Rooms,这是一项数据管理服务,帮助客户更快对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理。企业中的各类人员都可以通过Amazon DataZone访问整个组织的数据,以提升企业的数据洞察力。
端到端数据战略的第三个核心要素是数据普惠化。数智前线获悉,亚马逊云科技正推出机器学习相关大学教育培训计划,为培育新一代劳动力做准备。低代码也是今年业界的热点,Amazon SageMaker Canvas、Amazon QuickSight Q等工具,让用户无需编写代码,通过拖拉拽的功能,即可实现基于机器学习的预测。
02
云数智三位一体是大势
企业用云不断走向深入,还体现在云数智三位一体的大趋势上。客户一旦运用数据分析,为它的业务赋能之后,下一步就想着,通过人工智能继续发挥数据分析的价值。陈晓建称,这是一个常见的客户发展路径。
云数智要一体,大数据分析与机器学习就有了融合的迫切需求。在本次大会上,如何把两者结合在一起,降低客户的使用门槛,是一个重要方向。
比如,通过像Amazon SageMaker,用户不用去考虑下面的操作是数据分析服务还是人工智能服务,而是通过统一的控制台进行大数据分析,同时进行AI/ML的操作。通过亚马逊云科技的工具,线上旅游公司Expedia集团,每年处理超过 6000 亿个 AI 预测,由 70 PB 的数据提供支持。
机器学习有它自己独特的挑战,它创建自定义的策略非常耗时,了解整个模型性能的成本非常高昂,往往需要做大量的测试、大量的评价,才能得到真实的情况。如何让用户能更简单地、更低门槛地去使用机器学习,亚马逊云科技也提供了各种工具,像Amazon Canvas、Amazon AutoPilot、Amazon JumpStart,所有这些工具希望在整个生命周期帮助用户更高效的方式去使用机器学习,为业务创造价值。
数智前线了解到,亚马逊云科技今年也发布了新的AI/ML能力。AI/ML有三层架构,其中第一层是基础架构层,包括自研芯片;第二层是Amazon SageMaker相关的端到端机器学习平台;第三层则是AI服务。
在自研芯片方面,Amazon Trainium训练芯片Trn1n实例发布,网络突破到1600Gbps;推理芯片实例Inf2发布,与Inf1实例相比,延迟降低到了1/10,吞吐量提升4倍。在第二层端到端机器学习平台Amazon SageMaker上,发布的新功能包括,地理信息数据的新功能,能让更多用户去发掘更多的价值;新一代Amazon SageMaker Studio Notebook,更好地连接、挖掘数据等。在第三层AI/ML相关服务方面,新服务包括Amazon Transcribe实时分析,Amazon Textract对文件的相关分析等。
03
云原生的三阶段九环节旅程
在行业中,几乎所有云计算公司,都在加强云原生战略。云原生是一个软件层面的架构优化,它是原子化、内容封装、接口标准化。一个复杂系统,可以从一个高耦合系统,变成结构化系统,可以像搭积木一样去搭建,以此降低复杂性。云原生让企业具备了敏捷创新、效率提升、弹性扩容等好处。由于这些优势,即便有成本和技术难度的挑战,一些走在前面的企业,仍在加速使用云原生。
本次re:Invent大会上,亚马逊云科技也强调了云原生数据战略。不过企业客户的能力是参差不齐的,陈晓建告诉数智前线,云原生数据战略,并不会影响客户的使用习惯。
“我们认为所有客户、整个行业的技术发展,迟早会走到云原生阶段。”陈晓建说,“但我们也理解,云原生不可能一蹴而就,不管是计算还是数据服务,都需要时间。”为此,云原生技术战略,并不代表用户所有的业务架构都必须是云原生的。客户可以沿用过去的使用习惯,“这两点,我个人认为是不矛盾的。”
亚马逊云科技大中华区产品部总经理陈晓建
陈晓建举例,比如针对RDS的产品优化,用户以前怎么用,现在还可以怎么用。当然,如果把架构改成云原生,能更好地去使用这些能力。比如使用Amazon DocumentDB Elastic Clusters,如果用户业务架构不按照云原生的Clusters去做,可能帮助不会那么大。
亚马逊云科技从2006年首次推出云原生服务Amazon SQS。从亚马逊电商自身的云原生改造经历,以及数百万个客户的云原生经历来看,亚马逊云科技总结了一套迈向云原生的治理经验,包括构建、治理和迭代三个阶段、九个环节的旅程。
在构建阶段,一切皆代码,通过代码来定义和管理所有类型的资源。比如CDK可以把所有的基础设施,面向对象的编程语言描述出来,交给系统自动维护。
在治理阶段,安全团队和开发和运行团队集成,避免让安全成为整个流水线中的瓶颈。一个例子是通过自动化漏洞管理服务在后台定期扫描所有应用系统可能出现的网络漏洞和网络暴露端口。
在持续迭代阶段,很多平台型服务一旦构建之后,不光可以为自己所用,也可以把它共享给团队内其他业务团队所有。比如说数据库、消息队列、API网关、缓存等等。
云原生应用要解决DevOps的问题,因为云原生理念就是你既是开发者,也是服务的运维者。亚马逊云科技推出一个CodeCatalyst端到端、开箱即用的DevOps工具,用户可以通过简单的拖拽,建立业务程序的架构。
在用户从上云到用云的过程中,数据被置于更重要的地位,在数据从集成、治理、存储、分析到安全,亚马逊云科技在建立端到端云原生数据战略,通过云原生战略、各条产品线的全面Serverless化,亚马逊云科技帮助行业和企业更顺利地进行应用创新,实现创新价值。