NC运维服务培训常见问题、工具和方案用友网络科技股份有限公司支持服务事业部常见NC技术问题概述01诊断信息的收集02NMC工具的使用03应对常见问题04如何设计一个硬件方案05各种各样的异常现象•中间件异常,宕机,不可用•一些奇怪的现象,前台报错•一些疑点无法确认•……为客户的信息化提供建议•客户有升级和变更的需求•客户NC系统的升级升迁•需要总部的售前支持•……NC技术类问题和需求NC的节点存在效率问题•节点打开慢•查询卡死•某个操作总是失败•数据错误•……常见NC技术问题概述01诊断信息的收集02NMC工具的使用03应对常见问题04如何设计一个硬件方案05应对常见问题发现问题现场解决是否能够解决寻求支持是否保留现场常见问题处理如何收集日志寻求技术支持……是否及时获取日志文件作必要的处理配置现场环境如何应对棘手问题?常用日志类别当提交ISM问题后,经常会被要求上传日志和报告,都有什么呢?NC应用端日志nclogsSPR日志(日志录制)前台日志(日志窗口输出)中间件日志服务进程日志Javacore/HeapdumpApache日志数据库端日志数据库实例告警日志数据库监听日志进程日志√√√√√√√√收集宕机和远程相关诊断文件服务器宕机时产生大量的日志是干什么的,heapdump文件是如何产生的?•首先要说明,javacore和heapdump日志的产生是IBM的JDK提供的功能,和was并没有关系,当NC中间件使用IBM的JDK的时候也可以产生heapdump文件。•一般来说,当使用ibmjdk的时候会自动生成heapdump日志,不需要任何配置。•heapdump日志生成路径是默认的,一般根据选择中间件不同默认路径也不同,was中间件默认为ibm安装目录下appserver中,而NC中间件默认位置就在nchome中。•也可以手动获取javacore日志,windows环境下在dos窗口下crtl+break可以在nchome下生成javacore日志,而linux和aix环境下kill-3也可以手动生成javacore日志。•总之,我们可以通过javacore和heapdump日志,通过ibm的analyze工具定位出现内存问题的线程和方法。关于日志的格式•heapdump.20151109.155454.4915580.0002.phd•Javacore.20151109.160327.4915580.0003.txt•抓取NC的日志有时候会需要根据情况抓取NC日志,可以在sysconfig中对输出日志的级别和大小进行配置。获取后台的日志WAS中间件日志IHS日志•HTTPServer/logs•access.log•error.log*当从前台访问不了NC,但NC正常的情况下检查。服务进程的日志•IBM\WebSphere\AppServer\profiles\AppSrv01\logs•IBM\WebSphere\AppServer\profiles\Dmgr01\logs•SystemOut.log•SystemError.log*当NC的运行出现异常,自动关闭,宕机或是其他有些错误时,应当第一时间检查和保留服务进程的日志。获取后台的日志获取数据库的相关日志•实例的alert日志10g:$ORACLE_BASE/admin/sid_name/bdump/alert_sid.log(默认位置)11g:检查background_dump_dest参数定义获取后台的日志获取数据库的相关日志•实例的监听日志10g:$ORACLE_HOME/network/log/listener.log(默认位置)11g:$ORACLE_BASE/diag/tnslsnr/hostname/listener/trace(默认位置)*当数据库连接有问题,数据源测试不通过时,要检查该日志*Windows平台下,该日志不能超过4GB。常见NC技术问题概述01诊断信息的收集02NMC工具的使用03应对常见问题04如何设计一个硬件方案05什么是NMC简单来说NMC是先进的性能监控、性能分析、系统管理平台,是我们定位性能问题的重要工具。NMC除了可以打补丁之外还可以做什么?◆单点效率查看一个操作执行了半天了,怎么样了?它正在干什么?◆离线的分析和spr的录制最不喜欢看nclogs,和天书没区别,如果有格式化那是极好的◆使用NMC查看NC系统压力看看NC整体的使用情况,现在整个NC压力如何?◆NMC网络测试功能凭什么说就不是NC的问题,而是网络的问题?如何安装部署NMC单机的部署•单机只需要启动单个NMCserver即可,•此时,这个NMCserver同时充当服务中心和监控服务器。启动方法:Cd%NCHOME%/NMC/server./startmonitor.bat%NCHOME%特指NC实际安装路径的变量。集群部署•集群环境即需要监控多个服务器目标,需要在每个物理服务器上启动一个NMCserver。•在每个节点上指定服务中心地址。可以通过configure.bat命令,•也可以直接修改./conf/service.xml中servicecenter部分来实现。需要注意的是:•1、要先启动服务中心服务器,再启动节点服务器•2、中心服务器重启,则节点服务器必须重启SPR日志功能录制SPR日志功能录制常见NC技术问题概述01诊断信息的收集02NMC工具的使用03应对常见问题04如何设计一个硬件方案05JDK的相关问题当服务器内存出现问题的时候,我们首先想到的是检查中间件内存设置的是否满足要求。NC中间件•使用NC中间件的环境,我们可以打开sysConfig里读取服务器信息,在JAVA虚拟机参数中调整-Xmx参数,逐渐调整满足系统要求,保存后重启中间件生效。•同时需要注意的是NC安装盘自带的ufjdk通常是32位的JDK,在调整Xmx参数的时候如调整到1024M以上会无法启动。当遇到该情况的时候,需要替换64位的JDK,同时不同的NC版本也对应了不同版本的JDK,一定要安装对应版本的JDK。JDK的相关问题当服务器内存出现问题的时候,我们首先想到的是检查中间件内存设置的是否满足要求。was中间件•was中间件设置中间件内存,一般通过ibmconsole控制台进行修改,而sysconfig中内存设置不会对was中间件环境产生作用•其次was中间件修改内存,对于每个server都要修改。替换JDK的方法替换JDK的方法有两种•停掉NC中间件,把原来32位ufjdk重命名备份,然后把64位JDK目录复制进nchome目录下,修改目录名称为ufjdk,重启中间件。*这种方法不推荐,在部分NC版本中会导致软件许可失效•是可以在sysconfig中,读取服务器信息中,JAVA_HOME路径中调用你新的64位JDK。也可以在系统环境变量中设置全局的JDK环境变量,这样你可以在sysconfig中的JAVA_HOME中直接引用%JAVA_HOME%变量。•was环境一般不需要替换JDK,默认使用中间件自带的JDK,其均为64位JDK。数据库监听问题数据库连接不上,sysconfig中数据源连接数据库报错我看不懂,这该怎么办?•像这样的问题,90%都是数据库监听配置有问题,以windows为例,你首先需要检查的是监听器的状态,请把oracle服务器的dos窗口打开输入lsnrctlstatus,检查监听器的状态,看下数据库的实例是否注册成功。•尝试重启监听器,Lsnrctlstop关闭后重启监听lsnrctlstart,•查看当你启动监听器的时候报什么错误,再具体问题具体分析。不同平台下ORACLE的一些限制。*Windows平台下数据库监听的日志大小不能超过4GB数据库监听问题一个简单的监听问题例子•当用sysconfig的时候测试连接数据库报错•查看报错很明显,网络适配器不能解析连接,原因可能如下:1、sysconfig中配置连接数据库的描述有问题2、就是我们数据库监听器有问题。•查看%ORACLE_HOME%/network/admin/listener.ora文件发现listener文件中的host描述数据库监听问题解决过程•经过排查监听文件,发现host写的主机名称;•将host修改为oracle服务器ip地址重新启动监听;•监听注册成功,数据库就可以成功连接了。其他方案host也可以描述为主机名,但是需要在hosts文件中把ip和主机名配好。(C:\Windows\System32\drivers\etc\hosts)数据库监听问题tnsnames.ora文件,该服务一般是放在客户端一种对数据库监听描述用于客户端简易连接的一种方式。•该文件和监听文件在同一目录下,配置类似于监听文件。•可以用tnsping命令检查tnsnames.ora文件•是否配置成功。数据库表空间下添加数据文件在我们导入数据库的时候经常会遇到一些报错,甚至在一些业务量大的系统中也会在前台提示表空间不足。•我们一般创建表空间的时候都会在添加数据文件都是设置为unlimit,但是一般操作系统对文件大小会有限制,通常为32G,因此需要给表空间添加数据文件。•以NC6系列NC_DATA01表空间为例,我们可以使用以下命令给NNC_DATA01表空间添加数据文件:ALTERTABLESPACENNC_DATA01ADDDATAFILE'数据文件路径‘SIZE1000MAUTOEXTENDONNEXT200M;•添加数据文件后,该导入任务讲继续执行,前台不会继续报错,无需重启数据库和中间件。关于中间件和数据库的安装•关于数据库和中间件的安装,可以到ftp上下载有关软件和资料,•也有一些同事录制的教学视频,供大家参考常见NC技术问题概述01诊断信息的收集02NMC工具的使用03应对常见问题04如何设计一个硬件方案05开始规划你的方案升级客户的系统典型场景:客户依据项目组的建议,经过简单论证和讨论,希望通过升级系统来解决一些效率问题。客户希望在可控的成本内一劳永逸,提高业务应用的使用体验。在一些特定情况下,客户乐意付出更高的成本。作为方案的提供者,要对一个新的方案持谨慎态度。盲目的给客户一个方案,最终未必能解决客户的关注点。准备工作,要分两步走:1、准确理解客户的期望,清楚客户想借升级来解决那些问题。2、对问题进行分类,将应用需要优化或调整的地方通过SPS服务来解决。对于规模和量级类的问题,再考虑通过硬件方案解决。如何给客户一个合适的方案建议需求调研应用优化硬件方案/建议是否解决问题问题清单量化指标是否能够优化ISM在线处理现场支持结束收集你的问题清单•数据要有记录,事关客户的认同与否;•数据要可量化,便于前后对比,有说服力,能够说明价值所在;•从关键用户收集关键数据。收集你的问题清单方案设计的几个重要依据:•并发数(授权数)•业务数据量(评估量)决定了存储,网络等要求,重要的考量因素。•接口应用的需求•其他外部系统*外部系统如何连接NC数据库?数据如何存放?•如何备份?备份如何保存?•产品版本的选择方案的确认与客户沟通(方案/需求)要确认双方是否都对技术的关键描述理解一致。特别是甲乙方均有技术人员,需要甲方人员配合我们做架构和部署的时候。举例:HA(高可用)分歧的产生点:“HA”在不同的层次有不同的作用。一般情况:HA用来应对主机失败,不可达。当主机不可用时,用另一个物理节点上来启动相应的应用,接管业务资源。通过RHCS,HACMP,或者ROSEHA等软件组件来实现。其他维度:虚拟机层面的HA,虚拟资源运行于资源池的某台主物理机上,当这台物理机有问题时,虚拟资源由其他物理主机接管。实现高可用。但虚拟资源有问题,比如虚拟机系统不可用了。则……….不同的理解,导致在进场实施时,会发现很多与方案不一致的地方,增加沟通成本。方案的确认WebServermasterncMem01ncMem02ncMem03ncMem04NCERPLoadBalanceHA方案的确认F5/CitrixmasterncMem01ncMem02ncMem03ncMem04NCERPmasterncMem01ncMem02ncMem03ncMem04NCERPHA成本决定复杂度架构层面的制约,应当有其他机制来补充。方案模板影响方案的几个要素标准模板(按并发人数)用于简单的,快速的,中小规模的方案设定自定义需求用于高标准高要求的客户需要多少台服务器数据存储的需求服务器的参数指标√√√资料下载FTP服务器地址:125.35.5.209登录账号/口令:nc_peixun/nc_peixun