4月 19

hadoop运维问题1

2013-04-19 21:18:29,171 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalid value for volsFailed : 1 , Volumes tolerated : 0
at org.apache.hadoop.hdfs.server.datanode.FSDataset.(FSDataset.java:975)
at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:389)
at org.apache.hadoop.hdfs.server.datanode.DataNode.(DataNode.java:299)
at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1582)
at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:1521)
at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:1539)
at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:1665)
at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:1682)

原因:磁盘损坏或链接失败
解决方案:通过hdfs的页面可以查到是那台服务器问题,在问题服务器上查看查看是那块硬盘的问题。紧急处理,停止该机的hdfs服务,在hadoop的hdfs-site.xml的配置中将损坏硬盘去掉,然后启动hdfs。之后尽快更换硬盘。

在恢复过程中使用“hadoop fsck /”查看当前状态。主要看“Missing replicas”副本丢失的比例,当数值为0%时,则恢复到系统设置的副本数量。
Minimally replicated blocks: 最小副本块完整的比例
Over-replicated blocks: 副本数高出设定默认复制级别参数的数据块文件所占比率
Under-replicated blocks: 副本数低于设定默认复制级别参数的数据块文件所占比率
Mis-replicated blocks: 丢失的副本块文件所占比率
Default replication factor: 默认副本数量
Average block replication: 实际平均副本数
Corrupt blocks: 损坏的block数
Missing replicas: 丢失的副本数
Number of data-nodes: 数据节点数
Number of racks: 机架数,如果没配置机架,默认都是1