其他安装部署问题

栏目:云苍穹知识作者:金蝶来源:金蝶云社区发布:2024-09-23浏览:1

其他安装部署问题

  • 安装机器缺少k8s依赖包,导致k8s安装失败

1 问题现象

安装器显示的报错日志如下:[ERROR FileExisting-conntrack]: conntrack not found in system path

2 问题原因

主机缺少k8s依赖包

3 解决方法

主机上执行如下命令,安装k8s必要依赖包:

yum install socat conntrack-tools


  • 安装器安装RabbitMQ是报“chown:无效的用户:"rabbitmq;rabbitmq"”错误

1 问题现象

2 问题原因

安装机器环境问题,导致安装器无法添加rabbitmq用户

3 解决方法

使用如下命令,手动在安装机器中加一下用户,然后点击继续安装。

groupadd -f rabbitmq

useradd -g rabbitmq -d /var/lib/rabbitmq -s /sbin/nologin rabbitmq


  • 物理机(centos7)通过安装器进行内核升级到5.4后,网卡找不到了

1 问题现象

物理机(centos7)通过安装器进行内核升级到5.4后,网卡找不到了

2 问题原因

内核版本、网卡驱动不匹配

3 解决方法

内核需要升到 Linux 5.4.170-1.el7.elrepo.x86_64,然后下载网卡驱动编译安装


  • 安装过程中ansible建临时文件夹报错

1 问题现象

安装器日志报错如下:

failed to create temporary directoy.in some cases, you may have been able to authenticate and did not have permissions on the target directory

2 问题原因

  1. 多次安装导致ansible在临时目录下建立了多个临时文件导致空间不足

  2. / 根目录剩余空间不足

3 解决方法

  1. 将/root/.ansible/tmp/ 下的临时文件删除后重试

  2. 检查 / 根目录剩余空间至少5G


  • 如何使用安装器只进行卸载,不启动新的安装

1 问题现象

只对老环境进行组件卸载,不安装新的组件

2 问题原因

  1. 当前安装器的重新安装->卸载安装功能启动后,后台会先进行卸载,然后自动启动新的安装

3 解决方法

  1. 手动修改安装检查的主机内存或cpu,使新安装时检测不通过。比如将cpu改为1000核。点击查看修改方式

  • 如何修改安装默认访问端口

1 问题现象

有些客户环境可能没法开通7618端口,导致浏览器中无法通过该端口访问安装器

2 问题原因

安装器启动脚本设置了7618为默认访问端口

3 解决方法

如上图所示,修改安装器启动脚本的默认访问端口即可


  • 安装器脚本执行超时问题

1 问题现象

 

查看安装器singularity/runtime/logs/default.log 日志时,发现打印上图的环境检查脚本执行超时问题

2 问题原因

安装器执行安装时超时了,一般是由于安装机器性能太低,或者网络环境不稳定导致;也可能是ansible在ssh的时候卡住了

3 解决方法

1)、检查安装机器网络环境和机器性能

2)、执行如下命令删除影响ssh的旧数据:

rm -rf ~/.ssh


  • 苍穹pg_wal日志满怎么办

点击查看解决方案


  • 安装器会更新操作系统内核吗

当前发布的安装器中,只有centos7.x_x86安装器在启动时会提示更新linux内核,其他安装器(比如麒麟V10安装器等)不会更新内核


  • 如何使用安装器仅安装k8s

当前安装器不支持单独安装k8s。若需要单独装k8s集群,可以通过安装gpaas(含k8s和gpaas应用),然后将gpaas应用删除即可。安装方法如下:

(1).

勾选仅安装gPaaS


登录gPaaS 任一台k8s master主机,执行gpaas应用删除命令( kubectl delete ns kce-system),即可把gpaas应用删除掉。这时就剩下一个全新的k8s集群环境。


  • 麒麟V10操作系统安装报RPM数据库错误

1、报错内容类似如下面这个:


错误:db5错误(-30969)源自dbenv->open: BDB0091 DB_VERSION_MISMATCH: Database environment version mismatch

错误:cannot open Packages index using db5 -(-30969)

错误:无法从/var/lib/rpm打开软件包数据库


2、 解决方案:

该报错是由于RPM软件包数据库(db5)权限或配置不当导致,通过在服务器执行如下两条命令解决:

sudo rm -f /var/lib/rpm/__db*

sudo rpm --rebuilddb

  • 安装Ngnix报找不到OpenSSL错误

1、报错内容类似下面这个:

checking for OpenSSL library ... not found

checking for OpenSSL library in /usr/local/ ... not found

checking for OpenSSL library in /usr/pkg/ ... not found

checking for OpenSSL library in /opt/local/ ... not found

./configure: error: SSL modules require the OpenSSL library.

You can either do not enable the modules, or install the OpenSSL library

into the system, or build the OpenSSL library statically from the source

with nginx by using --with-openssl=<path> option.

2、原因分析

安装器装Ngnix时是通过源码方式安装的,上面这个报错是因为安装机器上nginx依赖的openssl找不到导致

3、解决方案

下载OpenSSL源码 https://www.openssl.org/source/old/1.0.2/openssl-1.0.2k.tar.gz 到安装器目录singularity/scripts/cosmic/KDCC_installtool/kingdeetmp/nginx-appstatic/nginx/ ,修改路径下的installnginx.sh,在32行下面添加tar -xf openssl-1.0.2k.tar.gz同时在39行最后添加 --with-openssl=$pd/openssl-1.0.2k

  • 安装器ansible程序获取不到主机ip

1.问题现象(打印的错误日志)

The error was: 'dict object' has no attribute 'address'

2. 解决方案:

这个是由于没有正确配置网卡导致。检查下主机的网卡,并进行正确配置即可

  • 安装器报 hostname不能为localhost错误

1.问题现象

安装器日志或校验报告中报 hostname不能为localhost的错误

2. 解决方案:

  1. 修改安装主机的主机名,改为非localhost,然后重启主机。

  2. 安装器界面再次执行安装。若还报这个错误,则说明安装器有缓存,建议服务器上把安装器整个目录(singularity)删掉,然后重新解压启动安装器,再次执行安装

  • 安装器报 "没有终端存在,且未指定 askpass 程序" 错误

  1. 问题现象

    复制初始化镜像时报错:{"changed": false, "cmd": "sshpass -d8 /usr/bin/rsync --delay-updates -F --compress --checksum --archive --rsh=/usr/bin/ssh -S none -o Port=51138 -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null --rsync-path=sudo rsync --out-format=<<CHANGED>>%i %n%L /home/wlsjb/singularity/scripts/initialize/ansible/roles/00-copy_all/files/images.tar wlsjb@172.17.254.168:/opt/Kingdee/cosmic/init/", "msg": "Warning: Permanently added '[172.17.254.168]:51138' (ECDSA) to the list of known hosts.\r\nsudo: 没有终端存在,且未指定 askpass 程序\nrsync: connection unexpectedly closed (0 bytes received so far) [sender]\nrsync error: error in rsync protocol data stream (code 12) at io.c(226) [sender=3.1.2]\n", "rc": 12}

  2. 原因分析

    操作过程需要sudo输入密码,但是执行脚本操作过程中没有输入,多数出现在登录用户不是root的机器

  3. 解决方案

    sudo visudo进入/etc/sudoers 文件在当前用户权限处编辑 登录用户 ALL=(ALL) NOPASSWD:ALL

    参考https://www.jianshu.com/p/4e29e8b6f1d7

  • 安装器报 "无法open:没有那个文件或目录"错误

1.问题现象(日志报错)

fatal!:[10.96.103.131]: FAILED!=>{

"changed":true,

"cmd":"cd/home/cosmic/tmp/k8s-install/k8s_all/docker_rpm && tar -zxvf docker-20.10.7.tgz && cp -rf docker/"/usr/bin"

"delta":"0:00:00.079431",

"end":"2023-02-2112:59:54.265579",

"rc:2.

"start":"2023-02-2112:59:54.186148"

}

STDERR:

tar (child): docker-20.10.7.tgz:无法open:没有那个文件或目录

tar (child): Eror is not recoverable: exiting now

tar: Child returned status 2

tar: Error is not recoverable: exiting now

2. 解决方案

这个一般是由于安装器产品配置页面中填写的产品安装目录是一个权限受管控的目录(比如填写为/home目录等),导致安装器在执行安装时无法在这个安装目录下执行一些基础的安装配置操作。

可通过修改安装目录权限或更换安装目录来解决。


  • 安装器报 "Failed to connect to the host via ssh:/etc/crypto-policies/back-ends/openssh.config"错误

  1. 问题现象

    安装器界面点击启动安装时,弹出如下报错提示框


2. 解决方案

上述报错是由于主机不支持部分加密算法。修改/etc/crypto-policies/back-ends/openssh.config,注释成下图所示。然后执行systemctl restart sshd。



  • kubelet 启动时报 " /etc/resolv.conf no such file or directory"错误

  1. 问题现象



2. 解决方案

这个是使用了networkmanager的机器会动态更新/etc/resolv.conf文件内容,如果该文件不存在,会引发一连串报错(如上图所示)。

手工在安装机器上创建一个空的/etc/resolv.conf文件,然后执行 systemctl reload NetworkManager, 来解决该问题。

  • 安装器安装RabbitMQ失败且无法卸载怎么办

1. 问题现象

由于各种异常原因,导致安装器界面安装mq失败且无法卸载干净

2. 解决方案

登录所有安装rabbitmq的机器,手工卸载rabbitmq,并删除相关目录。具体命令方法如下:

systemctl stop rabbitmq-server && rpm -e rabbitmq-server && rm -rf /etc/rabbitmq/ && rm -rf /var/lib/rabbitmq/

  • k8s 组件占用了苍穹组件端口,导致苍穹组件安装失败怎么办?

1. 问题现象

k8s 很多组件的端口都是随机的,在安装完k8s后这些组件服务就会自动运行起来,比如下图的:

k8s calico-no组件服务占用了苍穹redis端口

k8s kube-prox组件服务占用了苍穹mc服务端口

2. 解决方案

由于k8s组件服务被杀死后,会自动再拉起一个新的服务,服务新启动时会再重新分配一个随机端口。

我们可以手工将k8s 对应服务 pid kill掉即可,比如上图的,kill -9 74546 或 kill -9 17501


  • ubuntu22.04.4上安装报错的处理方案

使用安装器在ubuntu 22.04.4上安装过程中,会报libc6 版本不兼容。解决方案是在所有安装机器上执行命令:apt install --reinstall libc6=2.35-0ubuntu3.6。执行完后,再继续安装。

  • 安装器安装过程,执行安装界面界面报错中断怎么处理

先根据报错日志来排查,若排查不出来,建议点“继续安装”或“重新安装”按钮再试一次,看是否还出现同样问题(针对主机网络延迟、磁盘性能低等偶发性环境问题导致的安装中断,一般可以通过这样的方式来处理)


  • mdd主从安装报错怎么处理

mdd 9.7.11 版本主从安装时,会报错,如下图所示:

上图错误原因是因为从mdd未正常启动,需要手工对主mdd 和 从mdd 进行密码设置,然后才能启动从mdd。解决方案步骤如下:

1.主mdd密码设置

登录主mdd控制台页面 http://【mdd ip 】:8080/bos-olap-webserver/,然后设置管理员密码

2. 从mdd密码设置

登录从mdd服务器后台,执行 mdd安装目录下的  bin/resetAdminPW.sh,根据提示设置密码。注意:密码需要和上述1主mdd管理员密码一致。

3. 启动从mdd服务

bin/start.sh start

4. 安装器界面点击继续安装


  • MySQL/PG 初始化导库失败时如何查询导库日志

如上图所示,当初始化失败时,排查发现和导库过程有关联时,可以通过在苍穹k8s master 主机上查询(执行:kubectl logs initcosmic-fsv62 -n init,其中 initcosmic-fsv62为实际的初始化pod) 初始化容器的日志,查看具体的导库失败原因,如下图所示:

 

其他安装部署问题

安装机器缺少k8s依赖包,导致k8s安装失败1 问题现象安装器显示的报错日志如下:[ERROR FileExisting-conntrack]: conntrack not found...
点击下载文档
确认删除?
回到顶部
客服QQ
  • 客服QQ点击这里给我发消息