Quando o sistema está disponível, a ocorrência de falhas diminui.
É importante que os sistemas sempre tenham alta disponibilidade. Questões de segurança e também na área financeira podem sofrer impacto negativo caso haja indisponibilidade.
Mesmo os melhores sistemas e os mais robustos falham de tempos em tempos. Felizmente, existem etapas que você pode seguir para limitar sua exposição ao tempo de inatividade.
O que é alta disponibilidade?
Alta disponibilidade refere-se a um sistema ou componente que está operacional sem interrupção por longos períodos de tempo. A alta disponibilidade é medida como uma porcentagem, com um sistema de 100% por cento indicando um serviço que sofre zero tempo de inatividade. Este seria um sistema que nunca falha. É muito raro com sistemas complexos.
A maioria dos serviços está entre 99% e 100% de tempo de atividade. A maioria dos fornecedores de nuvem oferece algum tipo de acordo de nível de serviço em relação à disponibilidade. Amazon, Google e Microsoft definem seus SLAs da nuvem em 99,9%.
A indústria geralmente reconhece isso como um tempo de operação muito confiável. Um passo acima, 99,99%, ou “quatro noves”, como é considerado excelente tempo de atividade.
Para manter a disponibilidade dos sistemas e evitar falhas, este artigo trouxe 5 estratégias que podem ajudar a implementar a alta disponibilidade. Vamos conferir quais são?
1. Roteamento em nível de aplicativo
No caso de uma falha de transação, os aplicativos com reconhecimento de nuvem podem ser projetados para rotear transações de maneira inteligente para um ponto de serviço secundário. Uma consulta de transação com falha é reprocessada automaticamente no local de trabalho secundário.
2. Gerenciamento de IP de rede
O gerenciamento de IP de rede permite que um IP de serviço publicado se mova entre as máquinas no momento de uma falha. Isso é classificado como um processo de autorrecuperação, em que dois servidores monitoram um ao outro. Se o primeiro servidor falhar, o segundo servidor assumirá suas funções e processos.
Alguns pacotes para Linux que fornecem essa funcionalidade são keepalived e o pacote Linux-HA.
3. Monitoramento
Um pacote de monitoramento bem integrado não apenas fornece informações sobre um aplicativo e sua função atual, ele monitora as taxas de erro que excedem um limite predefinido.
Por exemplo, um site de comércio eletrônico pode configurar o monitoramento em um gateway de pagamento para que, se as transações de autorização do cartão de crédito excederem uma taxa de falha de 20%, seu Network Operations Center (NOC) receba automaticamente uma tarefa de alerta e recuperação na infraestrutura iniciada.
Alguns pacotes de monitoramento amplamente disponíveis são Nagios, Cacti, Zabbix e Icinga.
4. Microsserviços
A infraestrutura é tratada como um sistema autônomo, onde tudo em seu aplicativo se encaixa perfeitamente em uma estrutura. Esta é a maneira mais simples de gerenciar as coisas, mas significa que todos os seus ovos estão nesta cesta.
O impulso em direção aos microsserviços ajuda a aliviar um pouco disso. Isso significa dividir as diferentes funções de uma aplicação em sistemas individuais que são integrados uns aos outros. Se qualquer peça tiver tempo de inatividade, o aplicativo inteiro será afetado apenas parcialmente.
Mas, novamente, isso vem com compensações. Adicionar microsserviços significa adicionar complexidade operacional. Você tem diferentes serviços para implantar e monitorar, mais ferramentas de back-end para acelerar, mais recursos de engenharia para manter tudo funcionando.
5. Múltiplas zonas geográficas
Para otimizar a alta disponibilidade, vale considerar a hospedagem em várias zonas geográficas. Quando uma indisponibilidade em um servidor ocorre e afeta seu sistema, há uma chance maior de disponibilidade em servidores distribuídos geograficamente.
A interrupção da AWS de fevereiro de 2017 mostrou o enorme impacto que uma região pode ter quando desce.
6. Configurações Multi-Site
No caso (improvável) de uma falha de hardware catastrófica, os recursos podem ser reimplantados em um local secundário em minutos e com pouco planejamento. A replicação de dados e a disponibilidade de recursos estão presentes no local secundário, e a implementação just in time de infraestruturas de aplicativos inteiras é medida em minutos, não em horas ou mais.
Quando arquitetados e implementados adequadamente, as configurações de vários sites permitem que uma empresa reimplemente toda a sua infraestrutura em um novo data center.
Ter um sistema altamente disponível é o primeiro princípio para que as empresas tenham sucesso no futuro. Por isso, é tão importante investir nessa área.
Escreva seu comentário