新闻中心

您的位置:首页 > ups电池回收

谷歌服务器内置UPS技术赏析:放弃集中式UPS电源回收

发布时间:2014/5/29 19:45:09浏览次数:作者:广州蓄电池回收公司

[导读]由于UPS处于交流供电环节的最重要一环,几乎机房所有的IT设备必须有UPS供电,每100度的服务器用电就有近10度电白白消耗在UPS环节。除此之外还有很多的应急水泵、空调风机、弱电系统等也常常采用UPS系统做掉电保护,大型数据中心的UPS回收装机总容量均已达到大容量或超大容量等级,提高运行时的能效势在必行。

  由于UPS处于交流供电环节的最重要一环,几乎机房所有的IT设备必须有UPS供电,每100度的服务器用电就有近10度电白白消耗在UPS环节。除此之外还有很多的应急水泵、空调风机、弱电系统等也常常采用UPS系统做掉电保护,大型数据中心的UPS装机总容量均已达到大容量或超大容量等级,提高运行时的能效势在必行。

  集中UPS系统弊端

  传统数据机房集中式UPS系统的工作模式多采用双变换在线工作模式,即通过“AC-DC整流和DC-AC逆变的双变换”给IT负载提供稳定的净化电源。但是在这一模式下,UPS的效率较低,通常满载下的最高工作效率仅92~95%(视UPS结构的不同),如果对于当前数据机房普遍采用的2N电源系统架构,其正常工作的最大负载率仅为40%左右,在这一负载率下,UPS不间断电源回收的工作效率也相应降低,通常只有约80~90%左右;即便是采用N+1的冗余配置,因为集中式UPS的容量颗粒度很大,总体负载率也不高;最后集中式UPS多采用一次性建设到位,但实际负载增长较慢,使得UPS系统长期运行在很低的负载率下导致低效率运行,这些都导致了能源的极大浪费并降低了整个数据中心的PUE指标。

 


  除了基础设施层级UPS环节的能耗很高以外,每个服务器等IT设备层级也都配备有服务器电源模块。通常每台服务器内配置有两个服务器电源,正常工作情况下两个服务器电源同时工作并均分负载,将UPS的交流220Vac输入整流成输出12V以及5V等电压给主板和硬盘等相关部件供电。主板上还有一级VRM电源再将12V输入进一步降压到1.3V等电压给CPU以及周边芯片供电,多级转换效率不高。我们还知道单个服务器电源的容量冗余较大,比如笔者见过有典型负荷为300W的服务器配了750W的电源,而正常工作时每个服务器电源只能分摊150W的负荷,因此负载率只有20%,同样服务器电源也有负载率低转换效率也很低的特点,此时服务器电源效率往往只有70%不到。综上,整个供电路径非常复杂以及多处冗余,造成真正用于计算的能源不足30%。


  谷歌服务器内置UPS技术原理

  目前大多数企业的的标准商用服务器系统都是从戴尔、惠普、IBM或Sun等IT设备厂商购买的,为了保障业务的可靠性,所以都使用了前面介绍过冗余复杂的集中式UPS架构以及服务器双电源保障,运行效率很低。对于全球最大的科技公司谷歌来说,百万级数量服务器的节能要求极其苛刻,与UPS相比,电池的成本更低,且电池比UPS更有效率。通常,大型UPS的最高效率为92%至95%,这意味着一部分电能被浪费掉,而电池的有效率为99.9%,因此谷歌在基础设施层级放弃了使用大型集中式UPS电源,改采用市电直供达到近99.9%的供电效率。而在IT设备层级,谷歌自己设计服务器系统,每个服务器的电源只配置了一个高效率的服务器电源,且电源容量接近实际负载需求,这样负载率高供电效率也很高。在每台服务器内配备了12V的备用电池作为分布式小UPS,当市电电源发生意外时,电池可以继续供电,保障业务的持续性。


  在硬件层面的可用性与效率的选择上,谷歌再次选择了效率。相比于传统集中式UPS长达半个小时甚至一小时的备电保护时间,谷歌服务器内置的分布式电池只能保持在市电断电后的很短几分钟内继续供电,直到柴油发电机起来承担所有负载。battery-on-server(服务器上的电池)基本上不能扩展,但它确实提供了一个分布式的电池备份,消除了传统设计对中央UPS的需要。如果市电长时间停电主要还是依靠备用发电机来持续供电,这是google在数据中心效率峰会上特别指出的,“如果发电机在几分钟内无法启动,这说明你有更大的麻烦,因此最好有一个以上的断电保护策略。”谷歌采用业务软件层面的冗余来保障,比如数据的多重备份,以及spanner等调度系统等,因此整个系统的健壮性不是靠硬件冗余来实现的。

  在服务器电源方面,谷歌一直在开发更高效率的服务器电源,以减少浪费电源。谷歌服务器的电源转换效率不是典型的65-85%,而是效率在92%甚至更高,如果愿意再花20美元,效率甚至可以到94%以上,且只有一个12V整流输出电压轨,可以兼容不同服务器主板的使用。


  由于历史的原因,传统的服务器电源往往有四种不同的电源:+12 V,-12V,5V,3.3V等输出,导致系统很复杂,效率不高,可靠性也不够好,应用还不够灵活。因为每个主板在每个不同电压输出会有不同的功率需求,服务器制造商为了兼容多款服务器的需求,往往会超额为每个单独的电压供应富裕功率,以支持多个不同的项目,从而导致负载率低效率低。

  下图就是个典型的传统服务器电源和谷歌服务器电源的内部结构对比,从这些图片可以看到采用单一输出的谷歌服务器电源比传统多输出的服务器电源复杂度大大减少,且删除了很多不需要的器件,还采用了成本更低的PCB板材以及插件元件等,效率更高,灵活性更好,成本还得到一定的降低,也更高简单可靠,还可以电源回收重复利用或者电子垃圾拆解。


  下图是谷歌较早期服务器的典型照片,只有一个电源,电源风扇既做电源自身散热,还兼做服务器风道散热。其厚3.5英寸(2个机架U单位),两个处理器,两块硬盘,八个内存条,主板由技嘉制造。google采用来自英特尔和AMD的x86处理器,Google还在自己的网络设备中采用了这种电池设计。从这些我们可以看出谷歌追求极致,为了效率无所不用其极,这就是谷歌不使用UPS电源的原因所在。当然UPS回收价格在效率提升上面还有很长的路要走,在可用性的前提下,效率的提高将更好的为广大企业造福。总之谷歌愿意耗费较大的成本来为每个服务器模块安装电池,从而达到服务器的极度节能,这种工程也只有谷歌能够完成。


  更多技术细节

  前面我们花了较大边幅介绍了谷歌服务器内置UPS技术的原理,下面笔者再针对这一技术实现做详细分析,以供大家了解更多技术细节。

  如前面介绍及下图谷歌数据中心供电架构图,谷歌数据中心没有采用传统的集中式UPS系统,而采用了分布式的服务器内置UPS电池方案,从电网直接取电再经变压器降压配电到208V给到每个服务器,直接由服务器电源转换成单一的直流输出给服务器主板供电。当市电停电的时候,则由服务器电源输出上直接并联的电池来继续给主板供电,直到备用的柴油发电机起来继续给服务器供电。其中标号为220的AC开关设备就是柴油发电机和电网投切的自动切换开关ATS,由于服务器是采用了市电直供技术,因此谷歌在市电的低压配电环节作了一定程度的防电网电压浪涌防雷等保护措施,防止电网侧的噪声对服务器等IT设备的干扰,同时也抑制IT设备的谐波等对电网和其他设备的串扰(谷歌要求服务器电源的功率因素达到0.95以上)。谷歌定制的服务器内置UPS也有很宽的输入电压特性,比如供电电压范围从85Vac到300Vac都可以可靠工作,从45Hz到100Hz的频率波动也能,这些特性保证了市电直供情况下电网电压波动和杂讯的影响不会轻易导致服务器内置UPS切换到电池工作模式。谷歌甚至还在定制的服务器内置UPS输出上增加电容的容量,确保有更长的输出保持时间。


  服务器内置的标号为115的UPS还包含了AC/DC转换器、输出开关单元、电池、电池充电器、以及控制器等。谷歌服务器电源的单一输出电压约为13.65V,输出电压正常工作的时候比电池电压高1V左右,因此市电正常的时候电池电压低,处于浮充待命状态,服务器电源承担全部的负载。由于主板上有唯一的VRM电源输入口,将13.65V的输入电压转换成各子部件需要的电压轨,而我们知道VRM电源的输入电压范围较宽,因此13.65V的电压范围允许一定的波动,比如VRM从9V到15V都可以正常工作,这样就不再受限于传统服务器电源的12V或者5V输出需要正负5%以内的很窄电压偏差范围等,灵活性大大提高,甚至允许电池有较宽的电池放电电压范围以延长电池放电时间。

  下图是该服务器内置UPS的工作原理图,当市电正常的时候,服务器电源输出约13V给主板供电,根据0.5欧姆的等效负载,估算其服务器的功耗约为13*13/0.5=338W。此时服务器电源不仅承担全部的服务器负载,还承担对电池进行充电的任务,使得电池始终处于充满状态,以便下一次停电时电池有足够的输出能力。如下图电池的等效内阻Rbatt约为100毫欧,而Rcharger为电池充电的限流电阻,避免过大的充电电流对电池的损伤,打个比方,电池放电的截止电压为9V估算,则充电电流不能超过(13-9)/20=200mA。限流电阻下面还有一个单向二极管用于防止电池被反向充电损坏等,同时考虑二极管压降0.7V左右,因此基本可以控制服务器电源的输出电压基本高于电池两端电压约0.7V到1V左右。当然电池充满后就基本处于浮充状态,不再消耗能量,只有很小的漏电流产生的泄漏功率,因此实现了服务器内置UPS的效率基本为99.99%的很高效率。


  当市电停电发生,交流输入检测电路快速判断到停电发生,13V的服务器电源输出出现电压跌落,当母线输出Vups触发到了Voff的欠压阈值,马上开通电池放电Vdischarge的驱动,背靠背的两个MOSFET开关被导通,从而开关530闭合电池马上放电承担起全部负载,保证服务器主板持续供电。随着时间的推移,电池放电电压持续降低,在99%的情况下经过10多秒甚至稍微更长些的时候,柴油发电机能自动开启并正常投入使用,这个时候服务器内置UPS由柴发供电而重新恢复13V输出,承担起所有服务器负载,电池不再放电,重新被充电,保证有足够能量用于柴发退出时候的再次放电。


  如果很不幸,在1%的情况下柴发没能正常工作,或者服务器电源内部故障,这些极端情况下电池会持续放电,直到两端电压放电到低于Vbatt_low的电池保护欠压点,此时电池放电Vdischarge驱动会关闭,电池不会继续放电以保护电池不会被放亏损坏。在这个过程发生前,谷歌服务器会自动将数据做保护后再关闭此服务器。

  当柴发带载了一定时间,市电故障排除重新恢复供电时,柴发先行退出,此时服务器内置小UPS再次放电,但放电只会持续ATS投切的几秒时间,然后市电重新来承担起全部的负载,UPS电池回收再次退出,并重新被充满,直到下一次停电发生,如下面的整个状态逻辑图。