大橙子网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
互联网时代的网络自动化运维
目前创新互联建站已为近千家的企业提供了网站建设、域名、网页空间、网站改版维护、企业网站设计、马山网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。
互联网上有两大主要元素"内容和眼球","内容"是互联网公司(或称ICP)提供的网络服务,如网页、游戏、即时通信等,"眼球"则是借指海量的互联网用户。互联网公司的内容往往分布在多个或大或小的IDC中,越来越多的"眼球"在盯着ICP所提供的内容,互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。为了保障对内容的访问体验,互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务,并为业务模块间的通信建立IDC内部网络、城域网和广域网,同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。因此随着业务的增长,运维部门也显得愈发重要。他们经过这些年的积累,逐步形成了高效的运维体系。本文将结合国内互联网公司的经验,重点针对IT基础设施的新一代自动化运维体系展开讨论。
一、运维的三个阶段
● 第一个阶段:人人皆运维
在早期,一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模),不一定有专门的运维人员或部门,运维的工作分担在各类岗位中。研发人员拥有服务器权限,自己维护和管理线上代码及业务。
● 第二个阶段:纵向自动化
随着业务量的增长,IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模),开始有专门的运维人员,从事日常的安装维护工作,扮演"救火队员",收告警,有运维规范,但运维主要还是为研发提供后置服务。
这个阶段已经开始逐步向流程化处理进行过渡,运维部门开始输出常见问题处理的清单,有了自己业务范围适用的自动化脚本,开始利用开源软件的拼装完成大部分的工作。
具体表现为:各产品线有自己编写的脚本,利用如SVN+puppet或chef来完成服务器的上线和配置管理等工作。
● 第三阶段:一切皆自动
在互联网化的大潮中,越来越多的黑马团队应运而生,都曾有过短时间内用户访问量翻N倍的经历。在流量爆发的过程中,ICP的互联网基础服务设施是否能够很好的跟进,直接决定了业务内容能否满足海量用户的并发访问。
与此同时,运维系统需要足够地完善、高效、流程化。谷歌、腾讯、百度和阿里等规模的公司内一般都有统一的运维团队,有一套或多套自动化运维系统可供参照,运维部门与开发部门会是相互平行的视角。并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。
图1.大型互联网公司IT基础设施情况概览
二、BAT(百度、阿里、腾讯)运维系统的分析
国内的互联网公司百度、阿里、腾讯(以下简称:BAT)所提供的主要业务内容不同,IT架构不同,运维系统在发展过程中有不同的关注点。
1.腾讯运维:基于ITIL的运维服务管理
预计到2015年腾讯在全国将拥有60万台服务器。随着2012年自动化部署实践的成功,目前正在进行自动化验收的工作。在网络设备方面,后续将实现从需求端开始的全自动化工作:设备清单自动生成-采购清单自动下发-端口连接关系、拓扑关系自动生成-配置自动下发-自动验收。整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。
图2.腾讯基于ITIL的运维服务管理
2.阿里运维系统:基于CMDB的基础设施管理+逻辑分层建模
CMDB(Configuration Management Database) 配置管理数据库(以下简称:CMDB),将IT基础架构的所有组件存储为配置项,维护每个配置项的详细数据,维护各配置项之间的关系数据以及事件、变更历史等管理数据。通过将这些数据整合到中央存储库,CMDB可以为企业了解和管理数据类型之间的因果关系提供保障。同时,CMDB与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。在实际的项目中,CMDB常常被认为是构建其它ITIL流程的基础而优先考虑,ITIL项目的成败与是否成功建立CMDB有非常大的关系。
3.百度自动化运维:部署+监控+业务系统+关联关系
百度主要面临的运维挑战包括:突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。百度的运维团队认为,当服务器规模达到上万台时,运维视角需要转为以服务为粒度。万台并不等于"百台*100";机器的运行状态,也不再代表业务的工作状态;运维部门为研发提供前置服务,服务与服务之间关系也随着集群的扩大逐渐复杂起来。
图3.百度自动化运维技术框架
百度的自动化运维技术框架,划分为部署、监控、业务系统、关联关系四大部分,整个框架更多突出了业务与IT基础设施的融合,注重"关联关系"的联动。所谓关联关系,主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系,分别对应到任务调度、数据传输、资源定位的服务流程中,形成了多条服务链。
关联关系的运维与业务较强相关,需要有一套系统能够理清楚关系的全貌,从而在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围,及时定位并通知相应的部门。在这样的一套系统中,自动化监控系统非常重要。百度的技术监控框架,主要通过数据采集、服务探测、第三方进行信息收集,进行监控评估后交给数据处理和报警联动模块处理,通过API接口进行功能扩充(如图4所示)。
图4.百度自动化技术监控框架
其实无论是BAT等互联网企业还是其他行业的企业,在IT建设中都会遵循IT基础架构库(ITIL)或ISO20000服务管理的最佳实践,采用自动化IT管理解决方案以实现重要的业务目标,如减少服务中断、降低运营成本、提高IT效率等等。随着ISO20000、ITIL v3.0的发布和推广,两者已经成为事实上的某种标准。在当今企业IT管理领域,对两个标准有着很迫切的需求。特别是ISO20000的认证要求,已经成为企业越来越普遍的需求 。ITIL v3.0包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理,相关方案往往覆盖了多个领域和多个产品,规划实施和工具的选择会比较纠结。如果选择开源的工具,从CMDB开始就会遇到很多的开发工作,对于很多注重成本收益比的企业,可以参考,但由于无法保证性能与效果并不一定适用。因此,成熟的商业方案会是更好的选择。
最新的iMC V7版本,围绕资源、用户、业务三个维度进行创新,发布了SOM服务运维管理(基于ISO20000、ITIL标准)等组件,增加了对服务器的管理,能很好的满足更多互联网化的场景需求。
通常认为,一个高效、好用的配置管理数据库一般需要满足6条重要标准,即联合、灵活的信息模型定义、标准合规、支持内置策略、自动发现和严格的访问控制。企业IT基础架构的元素类型、管理数据的类型往往有较多种,如网络设备、服务器、虚拟机等,因此对于多种信息的存储需要有合适的联合的方法。虽然 iMC智能管理平台在网络设备、服务器设备等方面已经能够较好的的满足,但是随着服务器虚拟化技术的发展,虚拟机正越来越多的成为IT基础架构的一大元素。因此,针对这一需求华三通信基于CAS CVM虚拟化管理系统,对服务器CPU、内存、磁盘I/O、网络I/O等更细节的重要资源以及虚拟机资源进行全面的管理。与BAT不同,华三通信的网管软件面向全行业,目前虽然没有对域名管理等特殊资源的'管理,但是能够通过API接口等方式与特有系统进行联动,进而满足定制化运维的需求,尤其是在互联网化的场景中,针对不同的业务需求,可以实现很多定制化的对接需求,例如,iMC+WSM组件与国内某大互联网公司自有Portal系统进行了对接,打通了iMC工具与用户自有运维平台,很好的实现了架构融和。另外,与阿里的逻辑分层建模相似,H3C "iMC+CAS"软件体系在上层也做了很多的逻辑抽象、分层,形成了诸多的模块,也即是大家看到的各种组件。
三、网络自动化运维体系
"哪怕是一个只有基础技术能力的陌生人,也能做专业的IT运维;哪怕是一个只有初中学历的运维人员,也能够带队完成中小型机房节点的建设,并负责数百至上千台服务器的维护管理工作"--这是一些公司对自己IT运行维护水平的一个整体评价。看似有些夸大的嫌疑,但实际上依托于强大的IT运维系统,国内已经有不少互联网公司能够达到或者接近这一标准。
这些企业都经历了运维发展过程中的各个阶段,运维部门曾经也是被动的、孤立的、分散的"救火队"式的团队,在后来的发展过程中,IT系统架构逐渐走向标准化、模型化,运维部门建立了完整的设备、系统资源管理数据库和知识库,包括所有硬件的配置情况、所有软件的参数配置,购买日期、维修记录,运维风险看板等等,通过网管软件,进行系统远程自动化监控。运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统,不断完善进而形成一套趋向自动化的运作支撑机制。按照云计算的体系架构,在这样一套系统中,主要的IT资源包括计算、存储、网络资源,近些年随着网络设备厂商的推动,网络设备管理方面的自动化技术也得到十足的发展。
总结来看,一个企业在进行互联网化的建设初期,就需要考虑到随着用户访问量的增加,资源如何进行扩展。具体可以细化为规划、建设、管理、监控、运维五个方面。
1.规划模型化
为了确保后续业务能够平滑扩容,网管系统能够顺利跟进,互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化,新增业务资源就好比点快餐,随需随取。
标准化:一是采用标准协议和技术搭建,扩展性好,使用的产品较统一,便于管理;二是采用数据中心级设备,保证可靠性、灵活性,充分考虑业务系统对低时延的要求。
模型化:基于业务需求设计网络架构模型,验证后形成基线,可批量复制,统一管理,也适宜通过自动化提高部署效率、网管效率。
图5.常见互联网IDC架构
2.建设自动化
互联网IT基础设施具备批量复制能力之后,可以通过自动化技术,提高上线效率。在新节点建设过程中,3~5人的小型团队即可完成机房上线工作。例如某互联网公司某次针对海外紧急业务需求,一共派遣了2名工程师到现场进行设备安装部署和基本配置,而后通过互联网链路,设备从总部管理系统中自动获取配置和设备版本,下载业务系统,完成设备安装到机房上线不超过1周时间。
要达到自动化运维的目标,建设过程中需要重点考虑批量复制和自动化上线两个方面(如图6所示)。
批量复制:根据业务需要,梳理技术关注点,设计网络模型,进行充分测试和试点,输出软、硬件配置模板,进而可进行批量部署。
自动化上线:充分利用TR069、Autoconfig等技术,采用零配置功能批量自动化上线设备,效率能够得到成倍提升。
图6.批量配置与自动化上线
○ Autoconfig与TR069的主要有三个区别:
○ Autoconfig适用于零配置部署,后续一般需要专门的网管系统;TR069是一套完整的管理方案,不仅在初始零配置时有用,后续还可以一直对设备进行监控和配置管理、软件升级等。
○ Autoconfig使用DHCP与TFTP--简单,TR069零配置使用DHCP与HTTP--复杂,需要专门的ACS服务器。
安全性:TR069更安全,可以基于HTTPS/SSL。
而H3C iMC BIMS实现了TR-069协议中的ACS(自动配置服务器)功能,通过TR-069协议对CPE设备进行远程管理,BIMS具有零配置的能力和优势,有灵活的组网能力,可管理DHCP设备和NAT后的私网设备。BIMS的工作流程如图7所示。
图7.H3C iMC BIMS工作流程
3.管理智能化
对于网管团队而言,需要向其他团队提供便利的工具以进行信息查询、告警管理等操作。早期的网管工具,往往离不开命令行操作,且对于批量处理的操作支持性并不好,如网络设备的MIB库相比新的智能化技术Netconf,好比C和C++,显得笨拙许多。因此使用的角度考虑,图形化、智能化的管理工具,往往是比较受欢迎。
智能化:使用新技术,提升传统MIB式管理方式的处理效率,引入嵌入式自动化架构,实现智能终端APP化管理(如图8所示)。
图8.消息、事件处理智能化
● Netconf技术
目前网络管理协议主要是SNMP和Netconf。SNMP采用UDP,实现简单,技术成熟,但是在安全可靠性、管理操作效率、交互操作和复杂操作实现上还不能满足管理需求。Netconf采用XML作为配置数据和协议消息内容的数据编码方式,采用基于TCP的SSHv2进行传送,以RPC方式实现操作和控制。XML可以表达复杂、具有内在逻辑、模型化的管理对象,如端口、协议、业务以及之间的关系等,提高了操作效率和对象标准化;采用SSHv2传送方式,可靠性、安全性、交互性较好。二者主要对比差异如表1所示。
表1 网管技术的对比
● EAA嵌入式自动化架构
EAA自动化架构的执行包括如下三个步骤。
○ 定义感兴趣的事件源,事件源是系统中的软件或者硬件模块,如:特定的命令、日志、TRAP告警等。
○ 定义EAA监控策略,比如保存设备配置、主备切换、重启进程等。
○ 当监控到定义的事件源发生后,触发执行EAA监控策略。
4.监控平台化
利用基本监控工具如Show、Display、SNMP、Syslog等,制作平台化监控集成环境,实现全方位监控(如图所示)。
;
H3C交换机安全配置基线H3C交换机安全配置基线(Version 1.0)2012年12月1 引言 (1)2 适用范围 (1)3 缩略语 (1)4 安全基线要求项命名规则 (2)5 文档使用说明 (2)6 注意事项 (3)7 安全配置要求 (3)7.1 账号管理 (3)7.1.1 运维账号共享管理 (3)7.1.2 删除与工作无关账号 (3)7.2 口令管理 (4)7.2.1 静态口令加密 (4)7.2.2 静态口令运维管理 (4)7.3 认证管理 (5)7.3.1 RADIUS认证(可选) (5)7.4 日志审计 (6)7.4.1 RADIUS记账(可选) (6)7.4.2 启用信息中心 (6)7.4.3 远程日志功能 (7)7.4.4 日志记录时间准确性 (7)7.5 协议安全 (7)7.5.1 BPDU防护 (8)7.5.2 根防护 (8)7.5.3 VRRP认证 (8)7.6 网络管理 (9)7.6.1 SNMP协议版本 (9)7.6.2 修改SNMP默认密码 (9)7.6.3 SNMP通信安全(可选) (10)7.7 设备管理 (10)7.7.1 交换机带内管理方式 (10)7.7.2 交换机带内管理通信 (11)7.7.3 交换机带内管理超时 (11)7.7.4 交换机带内管理验证 (12)7.7.5 交换机带内管理用户级别 (12)7.7.6 交换机带外管理超时 (13)7.7.7 交换机带外管理验证 (13)7.8 端口安全 (13)7.8.1 使能端口安全 (13)7.8.2 端口MAC地址数 (14)7.8.3 交换机VLAN划分 (14)7.9 其它 (15)7.9.1 交换机登录BANNER管理 (15)7.9.2 交换机空闲端口管理 (15)7.9.3 禁用版权信息显示 (16)附录A 安全基线配置项应用统计表 (17)附录B 安全基线配置项应用问题记录表 (19)
附录C 中国石油NTP服务器列表 (20)1 引言本文档规定了中国石油使用的H3C系列交换机应当遵循的交换机安全性设置标准,是中国石油安全基线文档之一。本文档旨在对信息系统的安全配置审计、加固操作起到指导性作用。本文档主要起草人:靖小伟、杨志贤、张志伟、滕征岑、裴志宏、刘磊、叶铭、王勇、吴强。2 适用范围本文档适用于中国石油使用的H3C系列交换机,明确了H3C系列交换机在安全配置方面的基本要求,可作为编制设备入网测试、安全验收、安全检查规范等文档的参考。3 缩略语TCP Transmission Control Protocol 传输控制协议UDP User Datagram Protocol 用户数据报协议SNMP Simple Network Management Protocol 简单网络管理协议ARP Address Resolution Protocol 地址解析协议VLAN Virtual LAN 虚拟局域网STP Spanning Tree Protocol 生成树协议RSTP Rapid Spanning Tree Protocol 快速生成树协议MSTP Multiple Spanning Tree Protocol 多生成树协议BPDU Bridge Protocol Data Unit 桥接协议数据单元VRRP Virtual Router Redundancy Protocol 虚拟路由器冗余协议NTP Network Time Protocol 网络时间协议AAA Authentication,Authorization,Accounting 认证,授权,记账GCC General Computer Controls 信息系统总体控制SBL Security Base Line 安全基线4 安全基线要求项命名规则安全基线要求项是安全基线的最小单位,每一个安全基线要求项对应一个基本的可执行
的安全规范明细,安全基线要求项命名规则为“安全基线–一级分类–二级分类–类型编号–明细编号”,如SBL-Switch-H3C-01-01,代表“安全基线–交换机– H3C –账号类–运维账号共享管理“。5 文档使用说明1 随着信息技术发展,路由器与交换机在功能上逐渐融合,具有共同点,部分路由器上配有交换板卡,可以实现服务器与终端计算机接入;部分交换机配有路由引擎,可以实现路由功能。虽然两者具有一定共同点,但从路由器与交换机在生产环境中的应用定位出发,本系列文档分为路由器安全基线(侧重于路由协议等)和交换机安全基线(侧重于局域网交换与端口安全等)。2 H3C交换机可以通过命令行、Web、NMS等多种方式管理,本文档中涉及的操作,均在命令行下完成。3 命令行中需要用户定义的名称与数值,文档中均以标出,用户根据需要自行定义。例如local-user ,表示创建账号名称为name1的本地用户,password cipher password1,表示本地用户name1的密码为passowrd1。4 由于各信息系统对于H3C系列交换机的要求不尽相同,因此对于第7章安全配置要求中的安全基线要求项,各信息系统根据实际情况选择性进行配置,并填写附录A《安全基线配置项应用统计表》。5 在第7章安全配置要求中,部分安全基线要求项提供了阈值,如“交换机带内管理设置登录超时,超时时间不宜设置过长,参考值为5分钟。”,此阈值为参考值,通过借鉴GCC、中国石油企标、国内外大型企业信息安全最佳实践等资料得出。各信息系统如因业务需求无法应用此阈值,在附录A《安全基线配置项应用统计表》的备注项进行说明。6 注意事项由于H3C系列交换机普遍应用于重要生产环境,对于本文档中安全基线要求项,实施前需要在测试环境进行验证后应用。在应用安全基线配置项的过程中,如遇到技术性问题,填写附录B《安全基线配置项应用问题记录表》。在应用安全基线配置前需要备份交换机的配置文件,以便出现故障时进行
回退。7 安全配置要求7.1 账号管理7.1.1 运维账号共享管理安全基线编号SBL-Switch- H3C-01-01安全基线名称运维账号共享安全基线要求项安全基线要求按照用户分配账号,避免不同用户间共享运维账号检测操作参考[Switch]dis current | i local-user安全判定依据1)网络管理员列出交换机运维人员名单;2)查看dis current | i local-user结果:local-userlocal-userlocal-user3)对比命令显示结果与运维人员账号名单,如果运维人员之间不存在共享运维账号,表明符合安全要求。基线配置项重要度高中低操作风险评估高中低7.1.2 删除与工作无关账号安全基线编号SBL- Switch- H3C-01-02安全基线名称账号整改安全基线要求项安全基线要求删除与工作无关的账号,提高系统账号安全检测操作参考[Switch]dis current | i local-user安全判定依据1)网络管理员列出交换机运维人员的账号名单;2)查看dis current | i local-user结果:local-userlocal-userlocal-user3)对比显示结果与账号名单,如果发现与运维无关的账号,表明不符合安全要求。备注无关账号主要指测试账号、共享账号、长期不用账号(半年以上)等。基线配置项重要度高中低操作风险评估高中低7.2 口令管理7.2.1 静态口令加密安全基线编号SBL- Switch- H3C-02-01安全基线名称静态口令加密安全基线要求项安全基线要求1)配置本地用户口令使用“cipher”关键字2)配置super口令使用“cipher”关键字检测操作参考1)[Switch]dis current | b local-user2)[Switch]dis current | i super password
安全判定依据如果显示“cipher”关键字,如:1)local-userpassword cipher 密文password2)super password level cipher 密文password 表明符合安全要求。基线配置项重要度高中低操作风险评估高中低7.2.2 静态口令运维管理安全基线编号SBL- Switch- H3C-02-02安全基线名称静态口令运维管理安全基线要求项安全基线要求1)采用静态口令认证技术的设备,口令最小长度不少于8个字符2)采用静态口令认证技术的设备,口令生存期最长为90天基线配置项重要度高中低7.3 认证管理7.3.1 RADIUS认证(可选)安全基线编号SBL- Switch- H3C-03-01安全基线名称RADIUS认证安全基线要求项安全基线要求配置RADIUS认证,确认远程用户身份,判断访问者是否为合法的网络用户检测操作参考1)[Switch]dis current | b radius scheme 2)[Switch]dis current | b domain3)[Switch]dis current | b user-interface vty安全判定依据如果显示类似:1)配置RADIUS方案radius schemeprimary authenticationkey authenticationuser-name-format without-domain2)配置域domainauthentication login radius-scheme local 3)配置本地用户user-interface vty 0 4protocol inbound sshauthentication-mode scheme表明符合安全要求。基线配置项重要度高中低操作风险评估高中低7.4 日志审计7.4.1 RADIUS记账(可选)
安全基线编号SBL- Switch- H3C-04-01安全基线名称RADIUS记账安全基线要求项安全基线要求与记账服务器配合,设备配置日志功能:1)对用户登录进行记录,记录内容包括用户登录使用的账号,登录是否成功,登录时间,以及远程登录时,用户使用的IP地址;2)对用户设备操作进行记录,如账号创建、删除和权限修改,口令修改等,记录需要包含用户账号,操作时间,操作内容以及操作结果。检测操作参考1)[Switch]dis current | b radius scheme2)[Switch]dis current | b domain安全判定依据如果显示类似:1)配置RADIUS方案radius schemeprimary accountingkey accountinguser-name-format without-domain2)配置域domainaccounting login radius-scheme local 表明符合安全要求。基线配置项重要度高中低操作风险评估高中低7.4.2 启用信息中心安全基线编号SBL- Switch- H3C-04-02安全基线名称信息中心启用安全基线要求项安全基线要求启用信息中心,记录与设备相关的事件检测操作参考[Switch]dis info-center安全判定依据如果显示类似:Information Center: enabled 表明符合安全要求。基线配置项重要度高中低操作风险评估高中低7.4.3 远程日志功能安全基线编号SBL- Switch- H3C-04-03安全基线名称远程日志功能安全基线要求项安全基线要求配置远程日志功能,使设备日志能通过远程日志功能传输到日志服务器检测操作参考[Switch]dis current | i info-center loghost安全判定依据如果显示类似:info-center loghost 表明符合安全要求。
¥
5
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
H3C交换机安全配置基线
H3C交换机安全配置基线
H3C交换机安全配置基线(Version 1.0)
2012年12月
1 引言 (1)
2 适用范围 (1)
3 缩略语 (1)
4 安全基线要求项命名规则 (2)
5 文档使用说明 (2)
6 注意事项 (3)
7 安全配置要求 (3)
MicrosoftSecurityComplianceToolkit(Microsoft安全合规性工具包)。由微软官方提供的一套安全合规性工具,旨在帮助管理员监测和评估Windows系统是否符合安全标准,保证系统的安全性和合规性。终端pc的安全基线可以用于终端PC的安全基线评估,还可以用于服务器和移动设备等环境下的安全基线评估。
安全配置基线一方面是防范内外部恶意攻击的重要手段,也作为最基本的安全防护标准,同时生产服务器安全基线的变化也是发现恶意攻击/行为的重要手段,特别是当各种主动防御设备(防火墙、防病毒软件、入侵检测系统等)均被绕过时,往往安全基线设置是否严格以及是否产生变化成为防范恶意攻击的最后一道防线。