Tenho um servidor HP ML310 Gen9 com ESXi 6.5. Nele tenho 4 HDs de 1Tb cada (Não são HDs específicos de servidor, mas são HDs bons)
Configurei 3 RAIDs com esses HDs. Um para o VMware 10, um para SWAP 0, um para as VMs 5. O Problema que estou tendo é somente com o DS das VMs, com raid 5.
A um tempo atrás, tive esse problema. Mas agora vem acontecendo com frequência. Umas duas vezes por dia.
Todas as VMs travam. Quando vejo o log, tenho umas 6~8 mensagens falando que perdeu o acesso ao datastore. Fica uns 3 minutos fora e volta. Passa uns 2 minutos e cai novamente. Isso acontece umas 6~8 vezes e depois tudo continua de onde parou. As VMs não reiniciam, só ficam travadas e voltam.
Aparentemente, perde o acesso por alta latencia. Depois volta normalmente, sem ter que fazer nada.
No status do vmware está tudo certo. Amanhã vou reiniciar o servidor para tentar abrir a iLO, olhar os discos, mas pelo status do vmware, mostra como tudo ok nos discos e array.
Alguma sugestão?
Segue o log:
Successfully restored access to volume 58ed9d28-df60822a-1157-b05ada56e074 (dsr5) following connectivity issues.
info
17/06/2018 03:06:51
srv-host.corp.local
Device naa.600508b1001cfb334954e713f75ec3b4 performance has deteriorated. I/O latency increased from average value of 48098 microseconds to 68345486 microseconds.
warning
17/06/2018 03:06:50
srv-host.corp.local
Device naa.600508b1001cfb334954e713f75ec3b4 performance has deteriorated. I/O latency increased from average value of 47807 microseconds to 34157145 microseconds.
warning
17/06/2018 03:06:50
srv-host.corp.local
Lost access to volume 58ed9d28-df60822a-1157-b05ada56e074 (dsr5) due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.
info
17/06/2018 03:01:47
dsr5