Date: Tue, 26 Jul 2011 11:26:33 -0300
From: Durval Menezes 
To: caiu@eng.registro.br

Prezados,

Para registro: temos alguns clientes com servidores hospedados no
Datacenter da ALOG em Botafogo/RJO (Voluntarios da Patria), em andares
diferentes, e confirmo que TODO O PREDIO DA ALOG ficou sem energia no
domingo e na segunda; O intervalo da falha, segundo os logs destes
servidores (cujos relogios sao ajustados por NTP) foram de 09:24:31
`as 09:35:28 no Domingo (11 minutos) e de 16:50:22 `as 18:27:33 ontem
(1 hora e 37 minutos) ontem.

A falha foi geral em ambos os casos, para voces terem uma ideia ate'
o site web ("portal") e o PABX deles saiu do ar, ou seja, nao tivemos
nem como abrir chamado exceto quando a energia eletrica retornou.

Hoje, nossos clientes receberam da ALOG um email com um "comunicado
oficial" apontando para o seguinte link:

    http://e.alog.com.br/preview_htm.php?id_cmp=197379&idem=1416&iu=725

A pagina acima basicamente e' uma montagem de varios JPGs com o tal 
"comunicado", o que achei bastante estranho pois o texto em si e' 
ISO8859-1 puro (ate' o tracejado da "assinatura" foi feito usando
hifens). Sera' que foi para impedir a indexacao da pagina pelos 
motores de busca e sua consequente "imortalizacao" na Internet?

Para facilitar a vida dos colegas, fiz uma captura da pagina em formato
grafico e um OCR produzindo o respectivo arquivo texto, seguem ambos
em anexo.

Apos ler o comunicado, tenho as seguintes perguntas:

1) A Alog afirma que o problema foi "em um dos componentes de alta
   confiabilidade de nossa infraestrutura elétrica". Perguntamos:
   que estrutura de alta confiabilidade e' essa que sai TOTALMENTE
   do ar por causa de um unico componente?

2) Exatamente QUAL componente e' este? Um de nossos clientes possui
   DOIS racks neste datacentro, os quais sao alimentados por tres 
   fases DISTINTAS (exigencia de contrato); na hora das falhas, 
   ficamos totalmente sem energia nas tres fases. nao consigo
   imaginar qual componente numa "estrutura de alta confiabilidade"
   poderia ser responsavel pela queda simultanea das TRES fases...

3) Se o problema ja' foi resolvido, porque somente "95% dos ambientes
   ja' estao funcionando normalmente", mais de 12 horas depois?
   
4) Que providencias a ALog tomou (ou planeja tomar) alem da tal 
   "manutencao corretiva" (que entendo ser a mera troca do componente
   defeituoso) para impedir que venha a acontecer novamente o mesmo
   problema na proxima vez que este componente apresentar falha?

Um Grande Abraco,
-- 
   Durval Menezes (durval AT tmp DOT com DOT br, http://www.tmp.com.br/)


On Mon, Jul 25, 2011 at 05:01:55PM -0300, Renato Ornelas wrote:
> Pessoal,
> 
> Ontem caiu tudo que eu tinha na alog do RJ (zerou o uptime).
> 
> Hoje aconteceu de novo, inclusive nao aprendo os prefixos do server que eu
> tenho hospedado la:
> 
> $ bgpctl sh rib 187.0.192/20
> flags: * = Valid, > = Selected, I = via IBGP, A = Announced
> origin: i = IGP, e = EGP, ? = Incomplete
> 
> flags destination          gateway          lpref   med aspath origin
> $
> 
> 
> 
> Alguem sabe o que esta acontecendo?

Anexos: