腾讯云音视频再生长
作者 | 杨丽
出品 | 雷锋网产业组
雷锋网按:尽管公共交换电话网从贝尔发明电话起就已经存在了,但利用互联网方式的语音传输却是20年前才开始崛起的事物。如今,短视频、直播、视频会议等应用领域已战成一片红海,但新的战争却尚未按想象中的节奏结束。音视频通讯越来越朝着云的方式融合发展,也促使各大云服务商暗暗调动储备力量,试图在新一轮的红利期来临之际做好准备。
既然提到privilege,那么在中国互联网历史长河,拥有20年音视频通信技术积累的企业,就必然有腾讯。
负责腾讯QQ通信和底层音视频技术多年的李郁韬接管了包括TRTC实时音视频、IM即时通信与CDN流媒体分发等一系列团队业务,从去年开始,他全力塑造将三大基础网络整合到RT-ONE™网络中。
这些信号早已有之。2020年因腾讯会议、微信视频号等互联网爆品的出现,已经让相关团队经历了多番协同。尽管这些业务目前相对独立,但无论在底层技术调度,还是场景应用层面都存在一定的融合空间。
近段时间雷锋网与腾讯音视频团队一次深入走访,能够发现:以腾讯云音视频能力为支点,整合调度资源并以打包式服务(API和SDK的方式)提供给最终客户,是腾讯音视频自研、自用、上云之后水到渠成的必然结果。
腾讯云副总裁李郁韬,从支撑QQ海量业务到平台开放一路走来,是QQ系通信服务的代表人物。现为腾讯云CDN(流视频分发)产品总监的廖龙,曾担任QQ空间、QQ农牧场等业务的后台研发。观察此次与我们交流的其他业务线负责人,他们均有在通信及音视频领域超过十年的业务经验。雷锋网还获悉,此次腾讯云音视频品牌确立后所涉及的团队人员已经有三、四百人。
近日,腾讯云正式发布腾讯音视频品牌,并推出互动云游戏、沉浸式、内容创作域、实时通信与业务协同等诸多解决方案。而促使腾讯云有能力改变这一现状的原因,或许要追溯到20年前。
1
技术储备的岁月
腾讯是一家以通信技术起家的互联网企业,在技术侧的积累、在市占率上的优势,想必在业界也是有目共睹。
1999年2月10日,腊月廿五,第一版QICQ 99a正式发布。从开始之初,QQ就具备音视频通话功能,但后来很长一段时间里,腾讯都依靠腾讯研究院和第三方技术服务商,没有独立的团队负责音视频技术。
这是腾讯音视频开始时的一段故事。
然而时局到了2011年这个时间节点,伴随QQ海量业务及腾讯自身业务的发展,以及采用第三方技术带来的黑盒子问题,腾讯开始有了自研的想法。同年,谷歌收购GIPS并通过WebRTC项目开源出来,Skype被微软收购,Zoom创立,业界诸多音视频通信领域的头部玩家开始躁动起来。
值得一提的是,QQ、Skype、Webex等很多产品当时就是使用GIPS引擎。这一年,腾讯也开始成立音视频中心,并召集人马自研了第一代引擎TRAE(Tencent Realtime Audio Engine),同年TRAE引擎正式替换了GIPS,成为QQ音视频服务的核心引擎。
这一阶段,腾讯完成了QQ在音视频业务与技术的原始积累。
从2015年开始,QQ开始做开放业务,将IM、实时音视频通信以API的形式提供给第三方使用。
与此同时,腾讯音视频引擎的自研之路开始加快。2015年,腾讯开放自研的SPEAR音视频引擎;2016年,腾讯又开放了OpenSDK引擎;2017年,腾讯开发了第三代引擎XCast,如今天的腾讯会议就是基于XCast开发的。当年的音视频中心也逐渐壮大,发展到如今的腾讯多媒体实验室。
在此期间,腾讯音视频技术以PaaS云服务的方式开放出来,从原先以文字和图片为主要服务场景,如今更多以视频、流媒体为主要使用形态的场景,从原先偏向消费场景的游戏直播、短视频,到如今偏向产业互联网的在线教育、视频会议、电商直播等多媒体应用,音视频市场需求的变化,也让包括腾讯云在内的许多厂商有机会将能力渗透到更多场景。
2020年IDC报告显示,腾讯云视频云解决方案市场份额位列行业第一,并且90%的国内音视频用户都是采用腾讯音视频的能力。
2
能力再进化:专注且极致
作为目前业界唯一一家同时具备实时通信网络TRTC、即时通信网络IM和流媒体分发网络CDN于一体的云厂商,李郁韬并不认为腾讯云此番是为了融合而融合。
“从技术角度讲,三网合一的演进在很多年前就已经开始趋同了。但恰恰是因为疫情将线上化视频调用的需求进一步激发出来后,我们发现越来越多的客户,尤其是来自传统企业的客户开始将业务搬到线上。”
在此之前IM+RTC+CDN的场景融合需求尽管存在,但并不凸显。一个关键的机会点还是因为疫情的因素。
“过往做音视频有两条技术栈,一是流媒体直播,提供海量分发、低成本服务;二是面向少数人的实时音视频通信,如海外厂商以及国内的QQ、微信的音视频通信服务。”
五年前,更多的人认为这两个技术栈面向的场景并不一样,但实际上,到去年一个更明显的信号是,这两个技术栈已经开始在业务需求层面走向融合。
“举个例子,RTC厂商提供在线教育场景服务时,可能首先会满足小班课,然后再满足10人、20人的大班课,再往上,教育机构一定会提出需求,能否既满足低时延、高并发,又具备低成本的服务?这时,RTC厂商的挑战在于,其缺乏一定的技术扩展性,同时也不具备像CDN这样的基础设施能力。”
Timing是一家在线教育平台,其推出的在线自习室场景解决方案背后,依靠的就是腾讯云的能力。
Timing创始人郭向云告诉雷锋网,选择腾讯云原因有三:“一是性价比,因为我们仍是一家创业公司;二是服务的稳定性;三是出现问题的响应速度。”
Timing是市面上少有的试图从教育+社交的角度切入的厂商,在郭向云看来,线下场景中有很多自习室,某些用户在学习时,会产生强烈的孤独感,如果有社交的方式融合进来或许可以缓解学习的压力。通过在线自习室的引入,Timing也从单纯个人使用的学习记录工具转化成了具有社交属性的在线自习室的产品。
这种方式恰恰回答了IM+RTC的融合趋势。
李郁韬告诉雷锋网:“后疫情时代,越来越多的客户在腾讯云上调用服务时,其实是三个需求并存,既要有高并发、大带宽的CDN流量分发,也需要高质量的实时音视频互动,同时还要具备IM通信服务。”
例如,在此之前,已经有很多客户选择上云过程中,在调用IM和RTC能力时,相较于CDN更为复杂,需要付出更高的接入代价和技术团队的组建。
为此,腾讯希望为客户提供一站式服务,从客户需求反推到底层技术架构,首先基础设施IDC、网络构建天然就是一起的;从技术能力来讲,三张网都需要有就近接入、海量调度、传输优化的能力,基于这几点,腾讯云将三张网融合在一起,在底层基础设施做到复用,在技术能力上做到共建,在上层应用方案和产品化包装时,能够做到一站式SDK和API提供给客户。
这进一步降低了客户直接调用音视频组件的使用门槛。
3
新的挑战
能够看到,技术仍是腾讯音视频一路走来的强生命线,但需要关注的是,尤其在RTC市场目前不乏许多创业多年服务大量客户的音视频厂商。而这个团队不仅仅要服务外部客户,腾讯体系内的绝大部分音视频的服务,如实时音视频通信、即时通信、流媒体分发等几乎都是这个团队在负责。既要服务好集团内部的需求,也要对外“接客”,两重身份,压力是可想而知的。
关于对外场景赋能,李郁韬并不掩饰其遇到的挑战。
“我们最大的困难在于业务多样性的问题,不同行业、企业客户提出的业务需求和对性能指标的要求是完全不一样的。这是我们从ToC到ToB转换过程中第一个要面对的问题。同时,放到外部市场环境中竞争,意味着一定会遇到多家产品竞争的问题,特别是在RTC和IM的场景中,有的客户选择SDK的部署方式,想要替换已经很难了。”
按照李郁韬的说法,团队也在不断寻找一些新的需求切入点。如有的客户存在对多云环境的需求,这就意味着团队可以提供给客户最小改动的形式,帮助客户一键完成多云调度的能力;再比如,在一些泛互联网的语聊、社交场景中,这类企业的音视频成本预算并不高,能否依托腾讯自身的生态资源,如集成腾讯音乐版权库,以小程序或SDK的方式提供给客户。
种种这类尝试,依靠本身在CDN领域的绝对优势,腾讯音视频还会在新的场景中跟进解决方案,逐渐建立与客户的信任。
目前来看,除了继续在社交类视频应用及出海业务线上继续夯实外,腾讯音视频团队实际也十分明确了接下来将要重点攻克的方向,包括在线教育、在线金融、在线问诊、工业制造等行业。
疫情成为音视频行业拓展空间的催化剂,也实际让更多行业客户通过音视频服务将业务转移到线上。如教育行业,大量线下教育机构都会构建自己的在线教育SaaS工具,同时还会考虑添加实时互动或交互的功能,以提升用户的活跃度和满意度。
而未来,用户互动的方式越来越多地开始向以超高清4K/8K、云游戏、VR/AR、视频AI等为代表的场景应用靠拢。腾讯提出的“全真互联网”,即实现全真、或异地接近真人的交流互动方式,也在因网络传输、多端融合等技术的解决以及更多用户场景的挖掘,而变得更加现实。
本文由雷锋网原创,作者:杨丽。申请授权请回复“转载”,未经授权不得转载。