点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
伴随云计算的滚滚浪潮,云原生的概念应运而生。以“拥抱云原生”为主题,2021年7月23日-25日,为期三天的iTechClub华北区第五届互联网技术精英高峰论坛在天津开幕,作业帮基础架构负责人董晓聪在大会上作主旨演讲。在近一个小时的分享中,董晓聪讲述了作业帮的云原生历程,并围绕云原生架构和多云架构两大解决方案进行深入延展,内容兼顾深度和广度,给与会者带来一场极具价值的分享。
云原生改造重塑公司技术体系
为什么作业帮要在行业内率先做云原生和多云架构?
作业帮成立于2015年,一直致力于用科技手段助力教育普惠,运用人工智能、大数据等前沿技术,为全国中小学生提供更高效的学习解决方案。“作为一家教育科技公司,作业帮对稳定性的要求很高。”董晓聪说,之前在传统的互联网公司,大家没法接触到用户,对用户的感知更多的是一个个UV、PV的数字,但在线教育不一样,“我们通过直播等形式面对的是一个个学生,每一次稳定性的事故都可能会影响他们的学业,所以对稳定性的要求只能更高。”
当出现单机、单机群、单云故障的时候,我们的架构能否很好的应对这些冲击?当代码变更导致业务中断的时候,我们能不能快速止损?除了稳定性外,成本和效率也面临着诸多的挑战。董晓聪说,作业帮选择的道路是通过云原生来解决上述的问题,用基础设施接管业务当中大量非功能的逻辑,以此来实现弹性、可观测性、韧性、自动化、可持续等相关一些特性,通过云原生的架构解决了部署层面的问题,然后在此之上实现了一套多云间自由迁移的能力。
“即使从今天来看作业帮当时做的这个决定,选择云原生架构,也是很有魄力的,因为它毕竟是一个技术体系重塑。”董晓聪表示,截至目前,作业帮已经完成了70%左右业务的云原生改造,处于业内领先水平。同时作业帮在弹性扩缩、serverless、在离线混部等方面都有广泛的应用,CPU调度、GPU调度、多云管控等方面有创新型专利产出,解决了开源社区的诸多问题。
多云架构实现秒级别自动切换
在对多云架构的分享中,董晓聪首先分享了作业帮解决多云架构面临的两大挑战。首先在云间互通的专线选型上,作业帮没有选择裸纤的方案,而选择了供应商的组网方案。董晓聪表示,选择组网方案,一方面因为有一层供应商的保护能力,另一方面是组网有一定弹性扩缩的能力。而在此之外,公司自身也做了双链路。
“多云还会面临着一个很大的挑战,就是计算资源的管理。”董晓聪说,单个云下就有十几种、几十种机型,多云会直接导致double、trible的工作量。这块作业帮对一些场景进行了建模,标准的负载型机器、专门的大内存、大存储机型,然后再结合网络的安全域,制定具体的业务套餐。
“完成了上面的网络、计算的问题之后,我们构建出自己的多云架构。“董晓聪说,用户通过DNS分流,落到不同的机房。常态下的业务应用之间的请求是单云闭环,不会去跨云通信。当从机房或者专线出现故障的时候,可以通过DNS/DoH把流量切到主机房上。当主机房出现出现故障的时候,还是同样的流量调度,除此之外,还要将从机房的数据存储,DB、Redis等进行提主,以此来实现了多云的稳定。
“完成云原生、多云改造之后,我们的稳定性,从之前的99.95%提升到了99.99%,机器的故障时间的影响也从分钟级别缩短到秒级。部署的质量也得到大幅度提升。”董晓聪透露,接下来,作业帮的发力重点会在实时音视频的云原生改造,推进无边界云计算,促成云边端应用一体协调。
iTechClub是国内技术人员的交流发声平台之一,通过贯穿全年多场次的区域及全国性技术交流活动,打造技术人专属的交流空间,坦诚交流、思维碰撞、观点交锋。本次峰会聚焦云原生的技术应用,大会还邀请了来自华为、京东等多家公司的云原生战略规划专家、高级架构师及行业资深人士,从不同的视角进行多维度的交流和分享,为与会者带来新思维,新灵感。(胡谦)
注:此文属于光明网登载的商业信息,文章内容不代表本网观点,仅供参考。