2021年蒲公英企服开放平台1024开发者活动日前在线举行,中国应用性能监控和智能运维领军企业基调听云CEO赵宇辰,就行业关键性运维事件,数字化企业应对快速迭代和系统稳定,数字化组织、政府如何在疫情和灾害面前快速安全启动数字化应用等相关问题与开发者进行了深入的探讨,面对挑战你可以放心起飞、基调听云智能运维空中为你护航。

TracupTalk 主持人:很高兴能在蒲公英1024程序员节邀请到基调听云CEO赵宇辰先生。赵总,近期全球数字化技术水平的标杆Facebook出现了长达7小时的重大故障,Facebook的管理团队、技术团队、运维团队几乎无计可施,整个系统瘫痪了7个小时。那么我们的CTO、运维团队、运维工程师是不是也面临同样的问题如果这样的事情发生在我身上,我是不是也无计可施?而关键的问题是有没有办法提前发现一些问题,有没有办法能找到一个背锅侠,谁能帮我解决问题,谁能帮我在真正出现问题的时候能够帮我解决,当然我们希望所有的问题是防患于未然。

基调听云CEO赵宇辰:我们一直做的是软件层面的监控,那就像您刚刚讲的Facebook的这种事件其实是经常发生的为什么呢?我们10年前或者15年前做监控,往往是硬件层面监控,但是我们现在发现其实硬件的故障已经很少发生了,同时因为软件设计的一些冗余,包括高可用,底层硬件件别的故障,并不会影响我们数字化整个的健康状况。

那么用户为什么软件经常出错?因为我们知道软件是高度迭代的,很有可能我们会每两周或者每几个月发布一个新的版本,去应对一些新的业务上的挑战,所以软件层面的变更会特别大,也会特别多,凡事只要是变化的,他就容易出错。所以一旦软件进行频繁的变动的时候、更新的时候往往会出现这样或那样的故障。

我们也听到了很多客户的反馈,因为基调听云支持了国内很多的互联网客户,包括现在越来越多的行业客户,政府客户、金融客户,其实都有这样的一个痛点,大家都很担心,很多时候开发是想上新的东西,去提供更好的数字化的服务和体验给我们的终端客户,但是运维相对来说他们是确保数字化系统数字基建不要出问题,如何应对这样一个看似好像有点矛盾,但是最终都是为了提供一个更好的数字化体验的事情,基调听云认为需要去做到整个的业务的数字化监控

以前传统的监控,我们是偏硬件层或者偏基础架构层,只能看到cpu内存或者是硬盘,这样一些偏传统的基础架构的数据,其实我们现在很多的客户其实关注的是业务的连续性或者业务的稳定性

我们看今天系统上面跑了多少订单,跑了多少合同,如果是一个ToC的可能是我有多少用户在上面,我在我平台上面所有的这一切是建筑在业务逻辑之上的,所以我们希望能打造一个端到端的监控体系,就是从业务逻辑到客户端,客户端可能是网页小程序或者是APP, App又分iOS和安卓等等,通过后端的服务器,经过多个组件到了数据库,这些后端的服务器上面可能跑的是Java、Python、SQL各种编程语言写的软件系统,这样形成一个整体的端到端的监控,因为只有把这些数据抓取下来,把整个的数据链条打通,这样在出现一个比较大的故障的时候,比如您刚提到的Facebook,包括一些之前像航空公司出现那些故障的时候,我们才能快速定位到说哪里出现了问题,而不像以前可能盲人摸象,每人看到的是系统的一部分对吧?

运维同学说数据库没问题,网络说网络好像也ok,前端说可能是后端的问题,就是大家会相互扯皮或者问题定位不清晰,因为每人只能看到自己的一角,我们现在希望数据都能抓取下来,然后再结合一点AI算法。算法是不是能根据以前发生的一些故障,或者说其他客户发现的故障,以前是因为一个数据库连接池导致了某一个服务的阻塞,然后服务阻塞又导致了可能我们面向客户的最终的支付系统的故障,这样一个链条的传导。

现在结合人工智能,我们是不是能快速地分析到,是不是哪里可能出现了问题,先缩小定位的范围,然后再最终确认到底是哪出现了问题,所以客户经常给我们提的一个需求就是能不能1分钟发现,5分钟定位,10分钟解决,这是个长期目标,也取决于自动化运维的各种工具手段。这也代表了现在客户对数字系统的连续性有比较强的诉求。我们再往前走一步,我们未来是不是尽量连这种问题都不要发生,在出现这些表征的问题的情况下,我们是不是能提前的预警?例如磁盘快打满了,或者消息队列已经涨得很多了,在这个时候是不是能提前做一些预警,所以这方面还需要有一些前瞻性的工作,这也是我们探索的目标。

总体而言就是希望大家在日常的运营维护数字化系统的时候,基调听云能成为这样一个背锅侠,甚至以后可能就没有锅,还没有掉下来的时候,这个锅已经被基调听云接走了。

TracupTalk 主持人:感谢赵总对数字化监控深入浅出的讲解,我记得梅花创投创始合伙人吴世春先生曾经说过:创业过程中不确定性永远会存在,我们怎么办?“强行起飞,空中加油”。我们不能等所有的bug都不存在的情况下再。您对这个观点是怎么看的?

 

基调听云CEO赵宇辰:

首先这其实一直是基调听云在努力的方向。基调听云就像一个加油机永远伴随在客户产品的旁边,出现任何问题,都能够进行空中救援、空中支持、空中加油。确保系统不出现问题。我们在软件开发的时候,其实起飞是很快的,但是长时间是要在空中的飞行,飞行怎么确保万无一失,其实是一个特别难的事儿,也是我们一直基调听云在追求的一个事情。

在数字化进程当中,不论是组织、企业、政府还是社会都需要数字化系统来支撑我们运转。其实在疫情当下没有一个数字化的健康码,你可能是寸步难行,而健康码我们偶尔会遇到一些问题,前不久我们也发生了一些问题,码扫不出来了,它可能是系统的问题,也可能是网络的问题,所以我们非常期待在数字化系统运行当中能有一个空中护航机,随着我们一起去发展延伸吴世春的这句名言,“强行起飞,空中护航”

基调听云有十几年历史,最早服务了很多互联网的客户,因为互联网公司他们就是建立在数字系统之上,特别疫情之后,我们发现很多的行业包括政府客户其实都很追求数字化体验,就像您刚才说的比如健康码,健康码这些小程序很多是各地政府48小时甚至24小时连夜开发上线的,上线之后一下它的访问量就很大,比如一个城市百万人口进出楼宇进出火车站机场都需要扫这样的一个健康码。它的用户体验关系到了民生,一旦我的健康码扫不出来,很有可能我今天耽误行程,甚至回家都回不了,那就造成了很大的一个困扰。

所以我们当时也是跟腾讯包括各地政府去合作,希望保障这样一个数字化体验。就像您说的很有可能是网络的问题,当地的网络设施不太好,也有可能是前端的问题,手机适配,那是不是iOS没问题,但安卓某一个具体的一个机型可能适配出现了问题,也有可能是后端服务器压力太大,没有经过完整的压力测试出现问题,包括一些数据库,是不是语句写的不够优美,或者是性能不够好,导致整个体验加载不出来,这也有可能,所以我们也会帮助各地政府去做这样一个端到端的监控。

其实不光是像健康码,我们现在去体检,我们现在去医院挂号,可能都是用数字化的手段对吧?我们去做一个核酸检测,很有可能就在附近的一个医院通过手机挂个号,然后提前注册一下,把个人信息全部注册进去,到了就直接扫了二维码,就直接可以去做核酸检测了。

在税务方面,我们每个人可能都是通过手机的APP去报个税,包括各地的医保很多都是建筑在数字系统之上,所以我们现在看到各行各业其实都依赖于数字系统去维持我们的日常生活,吃喝住行可能都会覆盖到,所以我们在这一块也坚定地相信数字化体验或者数字基建的性能和它的稳定性、可持续性或者可观测性,其实是未来一个非常重要的也是很大的一个契机,我们也希望能帮助我们的客户提升他们的用户体验和系统性能。

TracupTalk 主持人:感谢基调听云赵总给开发者朋友们带来的数字化监控讲解和对企业全程的陪护,我相信大家听完后也会对数字化监控的重要性有一个新的认知。再次感谢赵总能参加1024蒲公英程序员节线上直播活动!

就像赵总提到的疫情促使各行各业加快了企业数字化进程,而越来越多的软件加持,为企业的软件安全和稳定性提出了考验,数字化监控是一个很专业的领域,同时也是一个至关重要的领域。如果需要类似基调听云这样的数字化监控软件,小编建议可以在蒲公英企服企服开放平台进行选择,蒲公英企服平台汇集了4000+ToB软件,更多的选择和横向对比帮助您更快找到适合您需求的软件、产品与服务。

  • 2021年1月16日,由CIO时代学院、新基建创新研究院主办的“数字趋势,洞见未来”——中国行业数字化转型高峰论坛暨华南CIO年会在广州成功召开。

    继续阅读
  • 2月25日,基调听云虎年首场线上直播正式开播,本次直播以《让业务系统不再深不可测》为主题,通过对可观测体系的整体介绍以及DIALOG方案详解,更直观的展现基调听云可观测能力。

    继续阅读
  • 近日,作为全球最具权威IT研究与顾问咨询公司Gartner发布《2021Gartner APM魔力象限》,在报告中,Gartner指出,APM工具已经成为功能强大的分析平台。

    继续阅读
  • 2021年1月16日,由CIO时代学院、新基建创新研究院主办的“数字趋势,洞见未来”——中国行业数字化转型高峰论坛暨华南CIO年会在广州成功召开。

    继续阅读
  • 近日,中国应用性能管理(APM)解决方案提供商和智能运维领军企业基调听云正式和国内增强型分析搜索引擎的开创者北极数据,达成了生态战略合作。

    继续阅读