APG40故障处理小结_apg40故障处理小结
APG40故障处理小结由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“apg40故障处理小结”。
Page 1 of 9
APG40故障处理小结
从维护APG40以来,对APG40故障做了大概的统计,从统计结果看出有以下这些APG故障,下面我将对这些故障进行大概的分析及给出解决的方法: AP LOG STATISTICS 引起故障的原因:
1、AP VIRUS:APG感染病毒。
处理方法:人工DOWNLOAD更新病毒库后扫描清除病毒(如果是AP2的话,将AP2的ETRUST设置为从AP1更新病毒库),成功后用指令ACEASE手工删除告警。
2、LOGFILE/SECURITY LOGON:多次登陆AP错误告警。
处理方法:因为多次登陆输入帐号密码错误而导致,用acease消除即可.(如因帐户过期引起多次登陆输入帐号密码错误,那应通知交换室对该帐户重新定义帐户、密码,才能真正解决该故障。) AP SYSTEM ANALYSIS 引起故障的原因:
1、The object is LogicalDisk and the counter is % Free Space:硬盘空闲空间低过门限值。
处理方法:检查引起该故障的硬盘的文件,删除该硬盘的临时文件、较旧的备份文件等,并清空回收站。如删除了这些无关重要的文件后,仍无消除故障,此时可能需扩大硬盘空间(或压缩文件)来消除些故障,可打TR提交爱立信,提供解决方案。* C盘空间不足 可删C:TEMP 可删C:TEST 可删C:WINNTSYSTEM32LOGFILESMSFTPSVC1(2、3)(保留一个月的文件)
* K盘空间不足
可删K:IMAGESNODEA(保留最新一个备份文件)可删K:IMAGESNODEB(保留最新一个备份文件)
Page 2 of 9 可删K:ACSLOGSALOGLOGFILE(保留7天的文件)可删K:MCSLOGSPDS(保留7天的文件)
K盘主要文件是的网优统计文件,K盘空间不足多是网优统计文件过多所致。建议出K盘空间不足告警时,先联系网优室删除统计文件。网优统计文件所在位置:K:AESDATACDHFTP
* L盘空间不足 可删L:TEMP 可删L:FMSBACKUP 可删L:FMSDATATMP 可删L:FMSDATACPFRELVOLUMSWRELCMDHDF(保留2个月的文件)
2、The object is Security Log and the counter is %Used Space:安全记录占用空间超过门限值。
处理方法:连接PCANYWHERE到APG,检查EVENT LOG文件,删除较旧的EVENT LOG文件,直到告警消除。(如有必要,可将这些EVENT LOG备份后再删除)*Select Start | Programs | Administrative Tools | Event Viewer *In the Event Viewer select the Security log.Select Log | Security *Select Log | Clear All Events.*Select 'Yes' in the meage box Clear Event Log.*备份的流程:首先要先把EVENT LOG保存到APG,一般先先保存到C:TEMP目录下,再备份到磁盘。保存到C:TEMP目录的步骤:
1、In the Event Viewer select the Security log.Select Log | Security2、In the field 'Save in' select where to store the security log file.3、In the field 'File name', enter an appropriate.4、In the field 'Save as type', select an appropriate format.5、Select 'Save'.6、In the meage box Clear Event Log select 'Yes'.Page 3 of 9 故障描述:OSS无法收集到告警
故障分析:此故障是由于AD-X吊死引起,故障处理:可以在APG40 ACTIVE NODE 做PRCBOOT后,OSS能正常联机 故障描述:APG40系统中文件无法传到OSSDESTx的问题。
故障分析:多数此类告警都可以用指令CDHLS-L 查看所有路径的OSSDESTx的传输类型和参数定义是否正确。大多数都不会有参数丢失的情况,然后用CDHVER 查看告警制定的OSS路径的状态是否OK,否则用指令CDHVER-M 人工修正使状态变为正常,消除告警。但是有的告警比较特殊例如: AP FILE PROCESSING FAULT CAUSE FILE TRANSFER FAILED TRANSFER QUEUE ALOG DESTINATION SET OSSDESTALOG Problem Data Transfer error 故障处理:先尝试着用以上常规的处理方法即指令来设法消除此告警:
1、用AFPLS –L –S ALOG查看是有ALOG文件传送失败,如有则用AFPFTI –F ALOG将传送失败的ALOG文件重传一次,传送成功故障将会消除。
2、如还是传送失败,则cdhls-l OSSDESTALOG查看此路径的所有传输参数,一切均正确。
3、用cdhver OSSDESTALOG看其状态,结果显示STATUS OK。
4、于是确认了本地交换机的设置没有问题,怀疑是到OSS的网络不通 但用指令ping 132.97.19.1来ping 对端的IP, 显示网络路径完全正常;后来注意到A3级的一个告警,是由于刚才那个A2级告警引起的:
DATA OUTPUT, AP COMMON DESTINATION HANDLING, DESTINATION FAULT DESTINATION
Page 4 of 9 OSSDESTALOG CAUSE WRITE FAILURE Problem Data The connection to the remote host lost or write acce denied 再分析上面的告警要确认了是因为AP 文件没有写到OSS的权限。综上分析可以确定是对端网管的设置问题,导致ALOG文件无法正常传送。所以应及时联系对端人员(网管组)协助处理。
总结:此类问题可以从三方面来分析
1、人工重传文件。
2、本地设置和定义的参数。
3、网络是否畅通。
4、对端的参数设置。 AP PROCESS REINITIATED 引起故障的原因:
APG进程出现过重启后会出现此故障
处理方法:用指令CLUSTER RES查看所有进程状态是否”ONLINE”,如果不是则用指令(CLUSTER RES **** /ON /WAIT)将进程”ONLINE”,如进程状态为”ONLINE”,用指令ACEASE消除该告警。 AP FAULT 引起故障的原因:
1、MIRRORED DISKS NOT REDUNDANT:磁盘镜像有问题引起。
处理方法:用指令“RAIDUTIL –L LOGICAL”查看,如果地址为D0B0T0D0的RAID-1的状态为DEGRADED,则用指令“RAIDUTIL –A REBUILD D0B0T0D0”重建RAID-1。等过一段时间后,地址为D0B0T0D0的RAID-1的状态恢复正常OPTIMAL,故障消除。如果用指令“RAIDUTIL –L LOGICAL”查看所有状态均为OPTIMAL,则直接用指令ACEASE消除该告警。
2、GENERAL ERROR:AP故障引起。
处理方法:用指令ALIST查看告警列表,如有其他AP故障,先修复其他故障,然后再用指令ACEASE消除告警。
3、AP-AP LINK ALARM:一般由AP NOT REDUNDANT故障引起。
处理方法:恢复AP NOT REDUNDANT故障(详情看AP NOT REDUNDANT),如
Page 5 of 9 用指令ALIST没列出AP NOT REDUNDANT故障,可用ACEASE消除故障。
4、AP EXTERNAL LINK ALARM:一般由AP PROCESS STOPPED故障引起。处理方法:恢复AP PROCESS STOPPED故障(详情看AP PROCESS STOPPED),如用指令ALIST没列出AP PROCESS STOPPED故障,可用ACEASE消除故障。 AP NOT REDUNDENT: 引起故障的原因:
APG其中一个NODE DOWN掉引起。
处理方法:如果APG状态正常,直接指令ACEASE清除告警,如果状态不正常,按OPI流程:AP,System, Repair处理。过往处理经验大概操作:(借鉴)
1、在DOWN掉的NODE先做下一个REBOOT,看能否把NODE UP起来(做REBOOT前需用指令NET ACCOUNTS /SYNC做一下帐号同步)。
2、用指令NET START CLUSSVC重启CLUSTER RES。
3、如执行上两步都无法修复的话,可连上PCANYWHERE,查检各SERVICES的设置(特别是ACS PRC开头的),跟其他正常运作的网元对比,看是否有设置不一样,如有,改正后再做此边的REBOOT。
4、如还不能恢复,可打TR提交爱立信,提供解决方案。 AP PROCESS STOP 引起故障的原因:
进程人工停止或者遇到故障自动停止引起。
处理方法:查看该进程状态是否“ONLINE”,如该进程状态为“ONLINE”,用指令ACEASE消除该告警。如果不是则用指令CLUSTER RES *** /ON /WAIT将该进程“ONLINE”,如不成功,可对此NODE做个REBOOT解决。 IO STORAGE SPACE WARNING 引起故障的原因: IO存储空间不足引起
处理方法:CPDLIST –P查看IO文件存放的目录,用DOS命令DEL删除多余的IO文件。IO文件形如:AD-0_20041102_0005.LOG AP REBOOT
Page 6 of 9 引起故障的原因: APG重启后的事件告警。
处理方法:检查该AP状态是否为“ACTIVE”, 如不正常,则按AP NOT REDUNDENT流程处理。检查“CLUSTER GROUP”、“CLUSTER RES”是否“ONLINE”,如不正常,用指令将该进程”ONLINE”,如不成功,则按AP PROCESS STOP流程处理。检查APG恢复正常后,需用指令ACEASE消除该告警。 CP AP COMMUNICATION FAULT 引起故障的原因: CP与AP通信中断引起。
处理方法:一般重启APG或做CP SMALL可以恢复。注意:装载补丁、APG重启或CP重启期间会出现该告警。 AP ANTIVIRUS FUNCTION FAULT 引起故障的原因:
AP的NT系统的杀毒软件设定了定期更新病毒库,如果四次请求下载更新病毒库不成功则会出现告警。
处理方法:故障处理:在ap1设置eTrust软件,选Redistribution Server选项,然后APG2(计费专用)就可以通过“Redistribution Server”的方式从APG1更新病毒库。人工DOWNDLOAD流程看附件:
AP NOT AVAILABLE 引起故障的原因:
此故障通常是进程吊死OFFLINE或NODE DOWN掉起引APG不可用。处理方法:
1、指令CLUSTER RES查看各进程状态,如有进程为OFFLINE,即将进程Bring Online(CLUSTER RES *** /ON /WAIT),如不成功,做该NODE的REBOOT。
2、如还不行,可参照AP NOT REDUNDANT的故障处理。注:具体操作流程按照OPI:AP NOT AVAILABLE处理。
Page 7 of 9 AP SYSTEM CLOCK NOT SYNCHRONIZED 引起故障的原因:
1、Difference between CP and AP time exceeds 600 s-APZ alarm.There was a jump in AP/CP time:由于CP与AP之间的时钟相差600秒引起。处理方法:拔打010117,用指令CACLP核对CP时钟,同是也用AP指令time /T及date /T核对AP的时钟,并对有误差的时钟进行校正。
2、除了第一种原因处,其他原因可提交TR爱立信,提供解决方案。 AP DIAGNOSTIC FAULT 引起故障的原因:AP诊断错误
处理方法:用指令ALIST查看告警列表,看是否列出告警号为8701和告警参考数据为:C:ACSlogsUSAusa.temp.I/O error : Miing parameter,如果是,即删除文件C:ACSlogsUSAusa.temp,并做该AP的REBOOT,如不能解决或其他原因,可提交TR爱立信,提供解决方案。 BILLING,AP DISK,FILES SPACE LIMIT REACHED 引起故障的原因:
计费容量不足,通常当计费文件的大小达到或超过硬盘分配给CHARGING目录大小的80%门限值时,就会出现计费文件空间达到限制值的告警。可能会引起计费文件的丢失。
处理方法:通过减小计费文件在硬盘的保存时间来解决该告警问题,可依照OPI“APG40, Soft Function Change, Parameter,Change”进行对计费参数的修改,由于此操作涉及到计费参数修改,可申请爱立信现场支持。出现此故障,我们可先做以下预处理:
1、检查询问计费中心能否收到此网元的计费文件,如不能,即重启RDT_Server进程(Cluster res Cluster res RDT_Server /off /wait Cluster res RDT_server /on /wait)。
2、将计费文件备份到磁盘,在硬件上删除掉已备份到磁盘并传到计费中心的计费文件。
3、在紧急情况下,也可向交换室申请将计费倒到AP1上。 AUDIT LOG DEACTIVATED
Page 8 of 9 引起故障的原因: Audit Log文件被去活。
处理方法:用alogact指令激活Audit Log。
BILLING, AP OUTPUT, CONNECTION TO EXTERNAL HOST LO 引起故障的原因:
由于APG网元与省公司计费业务中心的FTP配置不一样所致,双方的接收协议存在区别,但该故障不影响计费文件的产生及接收。
处理方法:修改APG网元SecureDestinationHost的参数或计费中心修改FTP的配置参数。
FILE NOTIFICATION, AP CDH, ACKNOWLEDGEMENT NOT REC 引起故障的原因:
APG数据输出到外部系统失败,一般都为临时性故障。
处理方法:一般临时故障会自已恢复;用指令cdhver –m destination核验DEST是否正常。
CONNECTION SUPERVISION, AP CDH, CONNECTION TO REMO 引起故障的原因:同上 处理方法:同上
APG在日常维护中遇到的另类问题:
PCANYWHERE连接到APG后,点击桌面上的图标后没有反应,用显示器和键盘直接连到APG上点击还是一样,爱立信认为有可能是病毒的问题,但最后都未有结论。
处理方法:做一个reboot是可以暂时解决问题。
在做例行TEST LOAD时,文件LOAD入不成功出IO FAULT 15的结果。
处理方法:在CP模式中用ocsip看到IPNAOS的版本为CXC1060053R2B01,但是在AP模式下看到的版本为CXC1060053R2C,按照OPI流程Inter-Platform Network Software, Change对IPN进行function change后,问题解决。
曾经出现有些网元APG REBOOT后,有两个进程ACS_PRC_ClusterControl_1,ACS_PRC_EventAnalyser_1的状态为OFFLINE,将这两个进程BRING ONLINE
Page 9 of 9 的时候会引起APG40的循环REBOOT。
处理方法:此问题是Acs_prc_eventanalyser 和 Acs_prc_clustercontrol这个两个进程的参数设置有错误引起,只要修改这两项的设置就可以解决进程不能online的问题。具体是通过pcanywhere连到APG的ap1 paive node,在控制面板-SERVICES里面找到这两项进程,将其设置由原来ATUOMATIC改为Manual,并把ACS_PRC_ eventanalyser的LOG ON AS改为System Account".进行完这两步之后可以在该node重启进程。用同样的方法在ACTIVE Node完成该操作。现在APG的问题可以解决。
以后类似进程不能重启的问题可以先找一个正常的APG系统找到该进程将两者的参数设置比较一下,是否设置错误的问题。 在一边node做reboot后不能恢复的问题。
处理方法:主要是raid磁盘的问题,操作步骤是参照OPI: APG40, Node, Change。