计算化学公社

标题: Raid6阵列大容量硬盘不幸挂了后,重建阵列比raid5成功率高么? [打印本页]

作者
Author:
bobosiji    时间: 2020-10-7 10:04
标题: Raid6阵列大容量硬盘不幸挂了后,重建阵列比raid5成功率高么?
最近想买储存兼管理服务器(2U机架式),打算弄60T~80T(单盘8~16T)的储存容量,听说储存容量太大,硬盘不幸挂的话,raid5重建阵列很难成功,增加不了数据安全性(https://www.zhihu.com/question/20164654   https://www.bilibili.com/read/cv2384532),然后有推荐raid6的数据更安全的。
我的问题是,倘若硬盘挂了,raid6也同样需要替换硬盘重建阵列吧?这时候是否也面临raid5阵列同样的问题,以致大容量的阵列重建很难成功?如果这样的话,raid6的"数据更安全"
就只体现在:先挂一块盘,还能用(但重建不成功);再挂一块盘,也还能用(虽然此时重建还是很可能不成功,但也还能用;如果是raid5,就用不了了)么?
另外,raid6的写速度比raid5低(大概20%?),对跑一般的MDDFT模拟速度影响大么?多谢提点~


作者
Author:
abin    时间: 2020-10-7 11:36
RAID5 allows for a single drive to fail without any data loss. RAID6 allows for two drive failures without any data loss. RAID5 rebuild times tend to be quite a bit faster, ranging from 50% to 200% faster, depending on capacity, RAID controller and the amount of data you have.Oct 14, 2019
www.promax.com › blog › what-...
What is better RAID 5 or RAID 6? - ProMAX Systems

以上内容来自与粘贴复制。

重建都是很痛苦的经历。所谓成功率20%之类的都是屁话。
发生在自己身上,重建成功率是1或者0。

用大容量硬盘做RAID,就不要想重建的事情了。

多几个硬盘,各自备份自己的数据。

为了读写,做RAID0好了。

反正重建这个事情就是个传说。

真实经历,12x1TB RAID 5,挂了一个盘,换了一个新的插上去。工作正常。
后来又一个盘故障,新硬盘还在快递途中,遭遇停电,然后又挂了一个盘,数据当然挂了呀。

又有一个,24x3TB,第一次一个盘红色故障灯,更换一个盘,正常。
不久,又一个盘,故障指示灯,再更换一个硬盘上去,五天后,三个盘故障指示灯,服务器无法启动。
这里用的硬盘,都是传说中的企业级机械硬盘。

我自己用的两套小型集群,六节点规模,读写磁盘,就是普通的300元的机械盘,raid0,稳定运行三年多,
依旧在服役。机器一年的平均负载仅有百分之60不到。可能是使用频次不高,所以硬盘都没坏。

我自己的机器上,有安装独立的8TB硬盘,存放数据。算是数据的热备吧。

作者
Author:
abin    时间: 2020-10-7 11:49
补充一句,重建过程很简单,拔掉就硬盘,插入新硬盘。
无需关机,无需停机。
作者
Author:
bobosiji    时间: 2020-10-7 15:22
abin 发表于 2020-10-7 11:36
RAID5 allows for a single drive to fail without any data loss. RAID6 allows for two drive failures w ...

多谢老师提点~继续功课,raid6 raid10理论上应该是没有raid5的ure问题,“RAID6, RAID10理论上不存在URE问题, 只存在重建期间继续掉盘的问题.”   https://raid-failure.eth6.org/
因此 raid6 raid10重建失败的概率应该很低,比如“重建期间继续掉盘”有 1%的概率么?
其实想通了,raid5重建之前先把数据copy出来就行了(要么服务器本来就有另一组硬盘;要么发现raid5挂了盘之后赶紧停机,先买新硬盘挂上去copy数据之后再重建),重建失败就失败算了,拿原来阵列里能用的硬盘清空数据,继续组阵列,把已经copy出来的数据再挪回去如何?
作者
Author:
bluewhale    时间: 2020-10-7 16:09
Raid5还可考虑加global spare disk(s),坏了盘自动替换拉进去。
作者
Author:
abin    时间: 2020-10-7 16:23
概率没有意义,
一件事情,在你手里只有两种可能,
要么百分之百发生,要么百分之百不发生。

比如理论失败概率1%,
重建了一次,很倒霉,挂了。
这个时候,重建失败率就是百分之百哦。

每一次,都有两种可能,成功或者失败,
理论上的1%不具备实际意义。
作者
Author:
bobosiji    时间: 2020-10-7 16:41
bluewhale 发表于 2020-10-7 16:09
Raid5还可考虑加global spare disk(s),坏了盘自动替换拉进去。

既然是raid5+hot spare;那为啥不用raid6 呢?容量都是减少了2个盘,raid6可以同时随机坏两个盘,重建的时候没有URE,失败概率比raid5小很多(如果小到1%左右,可认为“与raid5比较起来”,是可以忽略的)。和raid6比较起来,raid5唯一的优点就是写入速度快 25%-50%?
作者
Author:
bobosiji    时间: 2020-10-7 16:50
abin 发表于 2020-10-7 16:23
概率没有意义,
一件事情,在你手里只有两种可能,
要么百分之百发生,要么百分之百不发生。

所以我们打算重建(将来如果需要的话)之前先把(还算重要的)数据都copy出来,,,,但如果这么弄的话,似乎也不需要重建阵列了,数据copy出来好,直接拿原来阵列里还没坏的硬盘清空数据,重新做raid5 或者 raid6(有必要还可以再加些新硬盘进去),再把数据copy回去就是。。。
因为raid重建阵列需要‘完美的’访问整个阵列的容量,如果需要copy的数据比较少,比如只有阵列总容量一半甚至更少的话,以上把数据copy两次的方法可能还更快一些?
作者
Author:
abin    时间: 2020-10-7 17:04
bobosiji 发表于 2020-10-7 16:50
所以我们打算重建(将来如果需要的话)之前先把(还算重要的)数据都copy出来,,,,但如果这么弄的话, ...

看你怎么拷贝了?

拷贝速度能快于300MB/S就会快一点。

如果数据有备份的话,还重建啥玩意啊?
直接重组阵列就行了。不过硬件RAID,也许需要停机重启操作。

作者
Author:
bluewhale    时间: 2020-10-7 17:13
bobosiji 发表于 2020-10-7 16:41
既然是raid5+hot spare;那为啥不用raid6 呢?容量都是减少了2个盘,raid6可以同时随机坏两个盘,重建的 ...

如果支持的话,raid50似乎更好。
作者
Author:
bobosiji    时间: 2020-10-7 17:48
abin 发表于 2020-10-7 17:04
看你怎么拷贝了?

拷贝速度能快于300MB/S就会快一点。

我上个帖子就是这个意思呀 比如说组个raid5阵列,平时多看看,发现有硬盘挂了,赶紧把数据copy出来做备份,然后也不用重建数据了,直接重组阵列再把数据copy回去。和重建阵列比较起来;重组阵列需要停机操作,但这个我们是OK的。课题组跑模拟,间断几天没啥关系,又不是证券商提供炒股服务,,,,




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3