segunda-feira, 21 de abril de 2014

Problemas com o protocolo NFS no vSphere 5.5 U1

                 

Na última semana a VMware confirmou a existência de um bug no vSphere ESXi 5.5 Update 1 (build number 1623387), que faz com que datastores conectados via NFS percam a comunicação com os hosts, aleatoriamente. O problema começou a ser relatado por alguns bloggers e também por alguns usuários no twitter. Os primeiros a notar o bug foram os usuários de storages NetApp, mas logo foi verificado que o problema estava ocorrendo também com storages de outros fabricantes.

Quando o problema estiver acontecendo, é possível notar que os datastores e as VM`s que estão nestes datastores ficam “cinzas” e inacessíveis. Além disso como o datastore está inacessível, as VM`s não conseguirão fazer nenhum tipo de operação de I/O, o que pode causar tela azul em servidores Windows. Já nas máquinas virtuais Linux, o sistema de arquivos pode entrar em modo somente leitura (read only). 

De acordo com a VMware, as mensagens abaixo podem ser encontradas no log vobd quando o problema estiver ocorrendo:

2014-04-01T14:35:08.074Z: [APDCorrelator] 9413898746us: [vob.storage.apd.start] Device or filesystem with identifier [12345678-abcdefg0] has entered the All Paths Down state.
2014-04-01T14:35:08.075Z: [APDCorrelator] 9414268686us: [esx.problem.storage.apd.start] Device or filesystem with identifier [12345678-abcdefg0] has entered the All Paths Down state.
2014-04-01T14:36:55.274Z: No correlator for vob.vmfs.nfs.server.disconnect 
2014-04-01T14:36:55.274Z: [vmfsCorrelator] 9521467867us: [esx.problem.vmfs.nfs.server.disconnect] 192.168.1.1/NFS-DS1 12345678-abcdefg0-0000-000000000000 NFS-DS1
2014-04-01T14:37:28.081Z: [APDCorrelator] 9553899639us: [vob.storage.apd.timeout] Device or filesystem with identifier [12345678-abcdefg0] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
2014-04-01T14:37:28.081Z: [APDCorrelator] 9554275221us: [esx.problem.storage.apd.timeout] Device or filesystem with identifier [12345678-abcdefg0] has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.

Até o momento, a única solução apresentada para o problema é um rollback para a versão vSphere ESXi 5.5 G.A (build number 1331820).

Para continuar acompanhando este caso, recomendo ficar de olho no KB 2076392