记一次CDH集群升级事故的解决
本文转载自微信公众号「明哥的IT随笔」,作者IT明哥。
01问题现象
某日明哥接到求助,集群运维人员在通过 cloudera manager 的 upgrade cluster 选项 (见下图一),升级 cdh 集群时遇到了问题,卡在了 "Execute command Upgrade Hive Metastore Database Schema on service Hive" 这一步。由于我们的应用系统是基于 Hive 的离线计算作业,hive升级不成功,应用应用无法启动,该问题亟待解决。
"Execute command Upgrade Hive Metastore Database Schema on service Hive" 这一步前的步骤是执行成功的,包括HDFS的升级:
02问题分析
查看cm页面上执行 "Execute command Upgrade Hive Metastore Database Schema on service Hive" 这一步时的 stdout 和 stderr 日志,其内容如下(页面日志没来得及截图,以下截图是当时复制出来的页面日志的内容):
stdout.log:
stderr.log:
查看hive metastore database 升级脚本的内容:
可见该升级脚本只是更改了 hive 的 mysql metastore db,更新了 hive 库中 DBS 表的结构 (增加了一列 create_time);并更新了 cdh_version表的一条记录。
如此简单的 ddl 语句和 dml 语句会执行失败,很可能的原因是使用的数据库用户名和密码不对或没有更新权限。我们需要验证下使用的用户名和密码是否正确,以及是否有相应的权限。这些连接信息和用户名密码信息是在 cm 中 hive 配置页面指定的:
不幸的是,如上图可见,出于保护敏感信息的需要,cm 页面屏蔽了用户配置的 hive metastore db 的用户密码。
(事实上 stdout.log 日志中也告诉了我们连接信息和用户名信息,跟上述配置是一致的:Metastore connection URL 是 jdbc:mysql://node1:3306/hive?useUnicode=true&characterEncoding=UTF-8;Metastore connection User 是 root。)
所以接下来,我们的思路是,拿到 hive metastore db 需要使用的正确的用户名和密码,并在上述页面配置下,再次重试集群升级步骤。
03如何获取 hive metastore db 的用户名和密码呢?
如何获取 hive metastore db 的用户名和密码呢?
方法一:找集群管理员索取。
该方法是可行的,但由于hive metastore db 的用户名和密码,是在初次搭建集群是设置的,集群搭建完毕后正常使用过程中很少会使用到该用户名和密码,日常越久可能集群管理员也会忘记最初的用户名和密码。(集群多了也可能会搞混淆)
方法二:查看配置文件hive-site.xml 获取。
该方法在 hive 的早期版本是可行的,但在1.x 后(不记得具体的版本了。。。),同样出于保护敏感信息的原因,hive-site.xml 中也屏蔽了该信息,如下所示:
方法三:通过 curl 访问 cm 提供的特定 restful 接口获取集群配置信息,包括 hive metastore 用户名和密码。
该接口的地址和访问方式是:curl -u cm-user:cm-pwd "http://cm-host:7180/api/v19/cm/deployment",示例如下:
04问题解决
在通过上述方法三,拿到了 hive metastore db 的正确用户名和密码后,在 hive 配置页面配置完毕正确的用户名和密码后,再次尝试升级集群(通过在 cm 的 Running Commands 页面,resume 恢复 upgrade cluster 命令即可),集群升级正确执行,直至结束,如下所示:
05HDFS 集群升级后的收尾
做过 hdfs 集群升级的小伙伴,会留意到,通过以上步骤升级完毕集群后,hdfs 集群可以正常对外提供读写服务,但在 hdfs 的 web 页面会有个提示信息 "upgrade in progress. not yet finalized",如下所示:
事实上,这是 hdfs 有意为之的升级机制:hdfs 允许用户在集群升级完毕后,再次对集群进行充分的业务测试和验证,确保一切无误后,才来 finalize , 即 commit 整个 update;如果业务验证失败,可以回滚到升级前的版本。"Finalizing upgrade is separate process that should be invoked manually after you confirm that data migration went well。"
我们执行命令 hdfs dfsadmin -finalizeUpgrade 进行升级后的 finalize:
再次查看hdfs web ui,提示信息不见了:
06key take-aways
汇总下知识点:
1. hive metastore db 的用户名和密码,可以通过以下命令获得:
curl -u cm-user:cm-pwd "http://cm-host:7180/api/v19/cm/deployment"
2. hdfs 集群升级完毕后,可以执行 hdfs dfsadmin -finalizeUpgrade 最终确认升级,也可以回滚到之前版本。
3. 相关命令如下:
hdfs dfsadmin -finalizeUpgrade
hdfs dfsadmin -rollingUpgrade [ | |]]
hdfs dfsadmin -upgrade [query | finalize]
hdfs namenode -upgrade | -rollback | rollingUpgrade
hdfs datanode -rollback | -rollingupgrade rollback
4. 参考链接如下:
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html
您可能感兴趣的文章
- 09-11PallyCon推出DRM许可证密码:抵御软件级DRM漏洞的盾牌
- 04-02Allied Universal(R) 聘请首席并购官兼战略与投资者关系联席主管
- 03-07云安全日报210305:IBM资产信息安全保护解决方案发现授权绕过漏洞,需要尽快升级
- 12-21Log4Shell攻击重创Kronos私有云服务 中断或持续数周
- 03-11谈身份管理之基础篇 - 保障云上安全,从[规范账号使用]开始
- 03-10云计算专家如何弥补网络安全技能差距
- 09-02亚马逊云科技2022 re:Inforce前沿趋势:加密、量子计算、开源
- 09-09追溯网络安全本源,原生安全范式框架v1.0外滩大会正式发布
- 03-07微软邮件漏洞门,超2万个美国机构遭遇黑客攻击
- 03-21我国网络安全产业处于繁荣发展时期 产业增速明显高于全球水平
阅读排行
推荐教程
- 11-01阿里云无影升级2.0 云电脑解决方案时代到来
- 11-01阿里云数据库全面Serverless化!与AI共同驱动走向一站式智能数据平台
- 11-012023云栖大会关键词:开放、大模型、MaaS、产业智能升级
- 10-31Serverless化云产品超40款阿里云发布全球首款容器计算服务
- 10-31阿里云给中国所有大学生每人送一台云服务器
- 10-31解密杭州亚运背后科技:核心系统100%上云,20多项全球首创智能应用
- 10-312023云栖大会开幕 阿里巴巴蔡崇信:打造AI时代最开放的云
- 10-31巴黎奥运会将基于阿里云实现云上转播
- 10-31马斯克440亿美元收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!
- 10-30中国广电已建700MHz基站59万站 5G用户突破1800万