新贵驾到:新一代路由器的能力和优势
2009年,本人加盟思科中国,从事IDC/Cloud解决方案,主要包括UCS/Nexus产品。立即对巨容量的Nexus 7K交换机及其相关以太网组网技术产生联想,768*10GE的Nexus7K、Switch Fabric技术能否在城域网使用呢?在我看来,城域网就是IDC的拉伸版本,只要距离不会带来问题,IDC的解决方案就可以在城域网使用。当时与几位技术人员讨论,结论是不合适。
接着,从2012年开始,思科发布了ASR9922,阿尔卡特发布了SR7950,Juniper宣布了MX2020。这些路由器功能定位在业务路由器SR,但是这些路由器的端口配置容量差不多是8Tbps,80*100GE,根据各厂家的Roadmap,在未来1年内,都将支持端口配置容量达16Tbps,也就是160*100G。我又在想:这么大容量的产品,作为SR部署在网络边缘,似乎大材小用,他们可以用作骨干网络和大型城域网的核心路由器吗?从容量上看,是可以的,但是这些路由器的特点是:纯以太网,单机,没有考虑集群,至多考虑两台背对背。就是这些特点,阻碍了推广的道路。
2004年,主流路由器GSR12816和T640的端口配置容量为320G,也就是32*10G,现在是800*10G,增加了25倍,按照升级后的160*100G计算,增加50倍。2004年到2013年的10年间,网络流量增长了大约20倍。这说明单机路由器容量的发展与网络流量的增长基本一致的。
再看看集群路由器,集群路由器在网络上已经很普及,4+2是主流,现网最大集群路由器是思科的CRS-3 8+2,单机箱最大2.24T,8+2集群总容量为17.92T。8+2集群是历时10年累积扩展而来,部分机柜容量仍然是10年前的1.28T,同时兼容了过去的低密度办卡,低速率链路,整个8+2集群路由器实际配置的最大端口容量大约5T,容量利用率只有1/3。这些大容量路由器主要在北京、上海、广州等节点使用,数量占总数不多。这说明,从容量上,从理论上,可以用单机路由器代替集群路由器。但是,实际上是无法替代了,因为集群路由器已有的线路板卡无法替代,尤其是POS,新一代路由器不支持。
再看看单机和集群的运营成本差异。8+2集群路由器,全部10个机柜,与一个单机路由器相比,耗电大约是5倍;机房空间、施工工作量等等,差不多就是10倍,运营成本相差巨大。比如耗电,按照实际消耗5千瓦/机柜计算,一年耗电43800度,按照大工业电价0.79元/度计算,约3.5万元/年。按照机房PUE= 2倍计算,集群路由器一年多用电费就是28万/台,算上机房空间,就更多了。(PUE等于2,PE是耗电效率,设备本身消耗一度,加上空调等配套消耗,实际是2度。)
再看看建设成本。参照已经发生的招标价格,同样端口配置容量的情况下,新一代路由器的价格只有原有集群路由器价格一半左右,这主要是技术本身进步和市场竞争的贡献,以及以太网产业链的规模效应。
最后看看施工难度和成本。集群路由器有1台扩展到8+2,每年不断增加机箱,合并机柜,升级软件,升级交换矩阵,迁移板卡,调整传输等等巨大施工中完成的,带着业务完成的,全是半夜完成了。据说要升级一次集群路由器,前后需要3-5个月。所以业界有一句话:凌晨在马路上走的,除了小姐,就是IT割接工程师,其中肯定有集群路由器的割接工程师。
从以上比较来看,单机路由器的优势明显,应该具备替换集群路由器的实力。
遗老不让位
新一代的单机路由器有如此巨大的综合性价比优势,但是运营商似乎没有在网络架构、技术要求、测试规范、招标规范等方面,积极主动地为引入新一代路由器创造条件,还是重点关注集群路由器扩容,这是为什么?
经过多方了解和打听,主要如下几个方面的原因,导致在骨干网络引入受阻:1. 不支持POS链路,无法兼容现有网络链路技术;2. 不支持集群路由器,无法支持网络的扩展;3. 不能保护已有投资;4. 新设备新技术,没有经过现网验证,存在风险。
以上4点,除了最后一点确实需要试用验证外,本人逐一分析,看看是不是问题,如果确实存在,是否可以解决。
首先谈谈POS链路。这个要求主要是兼容现有网络大量POS链路,同时,运营商仍然将POS作为必选链路技术之一,新增链路仍然有POS链路。POS是何方神圣,如此强大,运营商宁愿多付出一倍的价钱,也不愿放弃?原来POS是SDH王朝的遗老,电信级可管理的标志,电信思维的典型代表。他们不喜欢新贵以太网,认为它们没有规矩,不可管理。但是,40G开始后,全世界都开始与POS说再见,转向以太网,所以以太网产业规模巨大,价格便宜,而POS产业链急剧下滑,元器件短缺,价格居高不下。POS在世界范围内,已经公认被淘汰。运营商其实也知道POS来日不多,但是兼容过去的强大意识,无法断绝。只要对POS有一点要求,在运营商没有差异化的集中采购的体系下,对设备就是死穴。运营商应该拥抱纯以太网,在网络设计上创造条件,新增端口只要求以太网,少量特殊需求,可以特殊考虑。去POS化,拥抱以太网,应该成为运营商去电信化思维的具体行动!
其次,看看集群路由器。集群路由器的最大优势是容量可平滑扩展。过去10年IP网络流量增长了约20倍,集群路由器确保了网络的发展,功不可没。但是,集群路由器的发展也面临挑战和风险。
集群路由器存在市场风险。市场规模小,研发成本高,技术门槛高,最后必须运营商买单。集群路由器目前主要是Tier 1的运营商使用,超过一半部署在中国,并且以后最大的路由器必将在中国使用,这是中国宽带市场决定的。中国电信和联通占到宽带业务的95%,并且南北相对垄断,网络结构上都坚持单一的骨干+省+城域网层次化的汇聚型网络架构,所有省间和城域网之间必须经过骨干网络。这种市场现状和网络架构决定了网络发展依赖路由器容量的发展,从理论上集群路由器是最佳选择。同时中国巨大的网民基数和经济发展不平衡,导致网络流量的分布出现极端。北、上、广成为世界最大的流量节点。看看美国,美国有超过10个宽带运营商,自然流量分布在10个网络之上,同时美国网民绝对值比中国少,网络流量的绝对值比中国小。美国的经济和人口分布比中国均匀,网络业务量也比较均匀。所以,它们单个网络节点的流量比中国少,对路由器的要求没有中国高。
集群路由器背负太多历史负担,阻碍自身新技术即时采用。集群路由器使用到现在,已经10年,回头看,受限于10年的技术和体系架构,为了兼容过去,保护投资,在集成度、耗电、系统能力等方面,无法即时引入最新科技成果。最新路由器单机超过现网最大集群路由器,就说明了这个道理。这也是导致成本居高不下的原因之一。所以,应该合理设计和确定集群路由器的寿命周期和合理容量,该淘汰时就淘汰。
阻碍运营商的网络演进和新设备的引入。运营商以集群路由器作为网络发展演进的主要手段,背着历史包袱,兼容过去网络的思维,有意无意中,阻碍新设备、新技术的使用,没有即时依靠新技术降低网络建设成本。
容易垄断的形成,不利于市场竞争。集群路由器系统自身封闭的不断扩容,无法充分引入竞争。这也是价格居高不下的原因。
从以上分析中,对集群路由器依赖要适度,应该确定合理的寿命周期和容量。中国将成为未来更大容量的集群路由器的主要买主,市场规模很小,高昂的研发成本将由中国卖单。所以,因为尽量采用业界通用的主流设备,避免产品断头的风险。
最后看看投资保护的观点。运营商投资保护的观点值得商榷,认为能够继续发挥作用,就是保护了投资,其实不然。集群路由器为了兼容过去,整机利用率只有1/3,这其实是浪费,并且越陷越深;其次集群路由器的价格是新设备的2倍,多花了1倍的钱保护了投资,这个听起来有点滑稽;再说,已经使用的设备和办卡仍然使用,并没有浪费。最后老旧设备耗电、机房空间等等,运营成本相差很大。所以,保护投资不成立,浪费了投资是真的。
网络发展是否可以不依赖集群路由器?
未来10年,骨干网络容量预计将增长10倍,年均增长25%。现网最大集群实际使用容量约5Tbps,这么大容量的路由器不超过20台,不到全网路由器数量的1%。大部分是2-3T的节点。如果维持现有网络架构,要求路由器容量至少大于50T,才可能满足网络发展的要求。新一代路由器可以相信的容量是16T,无法满足要求。
实现网络扩展性,有两个途径,相互促进,但是各有侧重:依赖设备的容量扩展实现网络的扩展性,依赖科学的网络架构实现网络的扩展性。那么我们尝试看看,能否通过网络结构优化,降低这些节点的流量呢?
本人想到的有两个途径:去核心化和并网分流
去核心化,本质是推动扁平化,弱化骨干网络。省网络成为独立的AS,大中型省之间通过EBGP直达,不必经过骨干网络。对于上海、重庆、广州、深圳、苏州、南京等超过500万宽带用户的超级城域网,可以独立AS出来,与省网络逻辑上平级,单独与其他省互联。弱化后的骨干网只负责小省汇聚以及网间互联互通。在中西部增加国内网间互联互通节点,进一步减轻北、上、广流量压力。通过以上去核心和网络架构的改造,穿越骨干网络广州、上海、北京核心节点的流量估计可以减少40%。
这种省间通过EBGP互联,是网和网之间的互联,与现有骨干网络同一ISIS域内的省间直达是不一样的。通过EBGP直达,路由管理方便,流量流向清晰。在同一ISIS域内实现直达,会导致大量的等价路径,流量流向不清晰,在故障情况下的流量流向,更加不可控制,不可预见。
去核心化后,设备容量要求仍然大于20T,16T的路由器无法满足要求。怎么办?
在通过并网分流的方式,建设SP 骨干routing Fabric。比如建设2个并行的骨干平面,实现分流,减轻设备要求。运营商的整个网络抽象看,就是一台路由器,每一个城域网和IDC就是线路卡,负责用户接口,骨干网络就是交换矩阵,负责城域网/IDC之间的流量交换。路由器为了增加交换容量,一般都有8个独立并行的交换矩阵卡,它们之间互不相通的。所以,我们的骨干网络也可以有多个平面来实现容量扩展。比如,在美国有10多个运营商,就有10个并行的骨干网络。在美国的Tier 1运营商,EBGP Peer数量最多达4000多,说明美国的网络数量多,骨干流量已经被分担,路由器流量压力就小了。中国互联骨干网络主要是中国联通和中国电信,并且各自坚持只建设一张汇聚型的网络,导致骨干节点流量高度集中,路由器压力巨大。所以,全球一半的集群路由器在中国电信和联通使用。电信和联通完全可以通过增加骨干网络平面的方式实现分流,减低设备容量要求。
通过去核心化和并网分流的架构优化,可以实现网络容量的持续扩展,可以降低网络设备的要求,可以采用单机路由器满足未来10年网络发展的要求。
现在运营商正好考虑建设100G网络,可以考虑在发达省份增加新一代路由器作为省网核心,汇聚城域网流量,比如在广东、江苏、浙江、福建、湖北等省份,采用独立的AS号,在5省之间通过100G直达,通过EBGP交换路由。局部的纯以太网和100G网络就成功了。POS的问题、集群的问题都可以回避,可以半价建设一个网络。
原标题:新贵与遗老:被集群路由器和POS绑架的运营商网络