APG典型故障处理小结_apg典型故障处理小结

2020-02-28 其他工作总结 下载本文

APG典型故障处理小结由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“apg典型故障处理小结”。

APG典型故障处理小结

1、故障:intelligent networks management interface

分析:此告警表明文件系统在处理intelligent networks management interface(INM)接口连接时出错。

此时有两种情况:

1、ACTIVE CONNECTION FILE BUFFER表明缓冲区文件有误;

2、INM LOG FILE 表明INM的LOG文件处理时出错,此种情况比较常见,LOG FILE因为某些偶然原因被删除后就会出现这种情况,例如有时LARGE RESTART或是RELOAD后丢失此子文件。

处理: 用指令mpi:sfn=n+1其中SFN:SUBFILE NAME。n为最后一个INMLOG中的子文件的数目,出现这种情况。APG40中可以用CPFLS-S指令直接查看INMLOG 中的子文件情况。

2、故障:APG40系统中文件无法传到OSSDESTx的问题。

分析:多数此类告警都可以用指令CDHLS-L 查看所有路径的OSSDESTx的传输类型和参数定义有否正确。大多数都不会有参数丢失的情况,然后用CDHVER 查看告警制定的OSS路径的状态是否OK,否则用指令CDHVER-M 人工修正使状态变为正常,消除告警。

但是有的告警比较特殊例如:

AP FILE PROCESSING FAULT

CAUSE FILE TRANSFER FAILED TRANSFER QUEUE ALOG DESTINATION SET OSSDESTALOG Problem Data Transfer error 分析处理过程:先试着用以上常规的处理方法即以上指令来设法消除此告警:

1、用acease无法消除告警

2、cdhls-l OSSDESTALOG查看此路径的所有传输参数,一切均正确。

3、用cdhver OSSDESTALOG看其状态,结果显示STATUS OK。

4、于是确认了本地交换机的设置没有问题,怀疑是到OSS的网络不通 但用指令ping 对端o的IP, 显示网络路径完全正常;后来注意到A3级的一个告警,是由于刚才那个A2级告警引起的:

DATA OUTPUT, AP COMMON DESTINATION HANDLING, DESTINATION FAULT DESTINATIO OSSDESTALOG CAUSE WRITE FAILURE Problem Data The connection to the remote host lost or write acce denied

再分析上面的告警要确认了是因为AP 文件没有写到OSS的权限。综上分析可以确定是对端网管的设置问题,导致ALOG文件无法正常传送。所以联系对端协助处理。

总结:此类问题可以从三方面来分析

1、本地设置和定义的参数。

2、网络是否畅通。

3、对端的参数设置问题。

3.故障:APG40中CLUSTER 无法正常启动的问题

分析:APG40中经常出现AP1边的CLUSTER服务无法正常加载启动的问题,一般是当管理员改过普通用户的帐号或者密码时,或者系统升级的遗留问题时会出现。因为启动CLUSTER需要帐号密码的认证。

处理:在AP 模式下,用指令CLUSTER RES 查看具体服务ONLINE /OFFLINE的情况。一般情况下,可以用指令cluster res /on /wait 将某些服务人工ONLINE上;如果告警中涉及到磁盘阵列的问题还要用两条非常有用的指令raidutil-L all 和raidutil-L logical/physical查看逻辑磁盘和物理磁盘的状态。

如果整个CLUSTER无法加载,则查看ACTIVE或是PASSIVE边NODE 的状态就为UNDEFINED。在控制面板中的服务,找到CLUSTER查看属性,把MANUAL改为AUTO加载,然后在ACCOUNT项中改为正确的帐号和密码,然后PRCBOOT后,CLUSTER可以正常启动,解决故障。

4. 故障:告警AP SYSTEM ANALYSIS

详细描述:A2/APZ “GZMMSC63/JB/0/0” 804 041127 0011 AP SYSTEM ANALYSIS AP APNAME NODE NODENAME 1 GZG13MAP1C A GZG13MAP1A OBJECT

COUNTER

INSTANCE

LIMIT VALUE LogicalDisk % Free Space

C:

分析:这是一个由于磁盘空间不够引起的告警,此时我们通过LOCAL IP PORT/PCANYWHERE进入AP1 NODE A 查看C盘的属性,发现C盘的剩余空间小于16%。处理办法:C盘空间不足时可删除的文件

1、C:acsdataFtpmktrbuild 该目录存储的是爱立信TR需要的logfile,可以完全删除(一般可在提交给爱立信后即刻删除)。

2、C:Temp 该目录存储的是windows NT系统的临时文件,可以完全删除。

3、C:WINNTsystem32logfilesMSFTPSVC1 C:WINNTsystem32logfilesMSFTPSVC2 C:WINNTsystem32logfilesMSFTPSVC3 该目录存储的是windows NT系统记录的用户登录信息、安全事件信息等

logfiles,可删除较旧的文件,建议至少保留一周之内的文件,如实在空间不足,也可全部删除。

4、C:acslogsfch 该目录下如果有扩展名为.old的文件,形似:acs_fch_activity.old,为系统自动保留的旧版本文件,可删除该.old文件。C:acslogsprc 该目录下如果有扩展名为.old的文件,形似:ACS_PRC_error.old,为系统自动保留的旧版本文件,可删除该.old文件。C:acslogsusa 该目录下如果有扩展名为.old的文件,形似:usa.tmp.old,为系统自动保留的旧版本文件,可删除该.old文件。C:acslogscore 该目录下如果有扩展名为.unknown.x(其中x为一阿拉伯数字)的文件,形似:core.unknown.x,可删除该文件。

5、清空C盘回收站

通过以上方法一般可以消除该告警,如果不能消除的话,在确定C盘空间大于16%情况下,可以用指令ACEASE-O ID号消除.5. 故障:告警AP ANTIVIRUS FUNCTION FAULT 详细描述:Alarm Identifier

Cla

Category

Time 8796:0

A2

APZ

Sun Nov 21 07:17:42 2004

Object of Reference LOGFILE/APPLICATION-VIRUS

Alarm Text AP ANTIVIRUS FUNCTION FAULT SIGNATURE FILE DOWNLOAD FAILED

Problem Data

Sun Nov 21 07:17:41 2004 3004 GZG33MAP2A 2 264 InoculateIT EVENTLOG_WARNING_TYPE 07:16:11 11/21/04 176 gzg33map2a 07:17:41 11/21/04 The automatic download has run 4 times unsuccefully.The next attempt will occur at the regularly scheduled download time.解决方法:在ap1设置eTrust软件,记住沟选Redistribution Server选项, 然后APG2(计费专用)就可以通过“Redistribution Server”的方式从APG1更新病毒库。

6. 故障:AP LOG STATISTICS

详细描述:Alarm Identifier

Cla

Category

Time 8799:0

A2

APZ

Mon Nov 29 08:53:45 2004

Object of Reference LOGFILE/SECURITY-LOGON

Alarm Text AP LOG STATISTICS SECURITY VIOLATION ATTEMPT

Problem Data

Mon Nov 29 08:53:45 2004 29697 GZG33MAP1A 644 196 Security EVENTLOG_AUDIT_SUCCESS GZ9912 GZG33MAP1A S-1-5-21-1586019725-754599781-3438223002-1051 SYSTEM NT AUTHORITY(0x

0,0x3E7)-

解决方法:因为多次登陆输入帐号密码错误而导致,用acease消除即可.7、故障:AP PROCESS REINITIATED 详细描述: AP PROCESS REINITIATED AP

APNAME

NODE

NODENAME 1

ZCCBSC1AP1C

B

ZCCBSC1AP1B 分析:这是进程重新启动引起的。

解决办法:当进程起来后,此类故障都可以用APLOC进入AP模式,然后直接用ACEASE

ID消除。

8、故障:AP FAULT

详细描述: AP FAULT AP

APNAME

NODE

NODENAME 1

ZCZ40AP1C

B

ZCZ40AP1B PROBLEM GENERAL ERROR&AP-AP ETHERNET LINK&MIRRORED DISKS NOT REDUNDANT 分析:此类故障是由于APG40 DOWN掉后而引发的一系列告警。

解决办法:当APG40 PRBOOT 或RESET时启会出现此类的告警,当重启成功后(大概五分钟)故障会自动消除。如果没有自动消除可以用APLOC进入AP模式,然后直接用ACEASE

ID消除。

9、故障:AP PROCESS STOPPED

详细描述:AP PROCESS STOPPED AP

APNAME

NODE

NODENAME 1

ZCCBSC1AP1C

B

ZCCBSC1AP1B 分析:此类故障是由于这是进程吊死引起的。

解决办法:此类故障都可以用APLOC进入AP模式,然后用ACEASE

ID消除

10、故障:OSS无法收集到告警 分析:此故障是由于AD-X吊死引起,解决办法:可以在APG40 ACTIVE NODE 做PRCBOOT后,OSS能正常联机

11、故障:DIRECT FILE OUTPUT FAULT 详细描述:

DIRECT FILE OUTPUT FAULT AP

APNAME

NODE

NODENAME 1

ZCCMSCAP1C

A

ZCCMSCAP1A CAUSE BLOCK TRANSFER FAILED FILENAME RCEFILE1

分析:此故障是文件传送失败引起。

解决办法:当确定目的地没有任何故障后,进入“AP LOCAL MODE”下用指令“AFPFTI –F TRANSFERQUEUE”,告警便可以消除。

12、故障:EXTERNAL ALARM RECEIVER FAULT 详细描述:

A2/APZ “ZCDMSCCN63/JB/A” 624 040802

0347

EXTERNAL ALARM RECEIVER FAULT AP

APNAME

NODE

NODENAME 1

ZCZ40AP1C

A

ZCZ40AP1A APNODE

FCODE B

FAULT CODE 23 分析:由于APG40断电后产生的告警,当APG40上电后故障消除。

13、故障:AP REBOOT

详细描述: AP REBOOT AP

APNAME

NODE

NODENAME 1

ZCCMSCAP1C

B

ZCCMSCAP1B 分析:此类故障是由于APG40重启(自动或人工)引起。

解决办法:此类故障都可以用APLOC进入AP模式,然后用ACEASE

ID消除。

14、故障:CONNECTION SUPERVISION, AP CDH, CONNECTION TO REMOTE SYSTEM LOST

详细描述:

CONNECTION SUPERVISION, AP CDH, CONNECTION TO REMOTE SYSTEM LOST AP

APNAME

NODE

NODENAME

ZCCMSCAP1C

A

ZCCMSCAP1A DESTINATION BGWRPCMC 分析:这是由于远端设备端口问题引起,此故障会自动恢复

《APG典型故障处理小结.docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
APG典型故障处理小结
点击下载文档
相关专题 apg典型故障处理小结 小结 典型 故障处理 apg典型故障处理小结 小结 典型 故障处理
[其他工作总结]相关推荐
    [其他工作总结]热门文章
      下载全文