Quanto mais dados você precisar para a análise e outras finalidades de negócios, mais complexa e cara a curadoria se torna.
Curadoria de dados é um termo que recentemente se tornou uma parte comum do vocabulário de gerenciamento de dados. A curadoria de dados é importante no mundo atual de compartilhamento de dados e análise de autoatendimento, mas é um termo frequentemente usado incorretamente.
A curadoria de dados envolve muito mais do que armazenar dados em um banco de dados compartilhado.
O que é curadoria?
Vamos deixar os dados de lado por um momento e considerar o significado e as atividades de curadoria. O uso tradicional da palavra está associado a coleções de artefatos em um museu e obras de arte em uma galeria.
Mais recentemente, começamos a usar o termo para descrever coleções gerenciadas de vários tipos, como conteúdo com curadoria em um site, músicas e vídeos com curadoria disponíveis por meio de serviços de streaming e aplicativos selecionados por meio de serviços de download.
Curadoria é o trabalho de organizar e gerenciar uma coleção de coisas para atender às necessidades e interesses de um grupo específico de pessoas. Coletar coisas é apenas o começo. Organizar e gerenciar são os elementos críticos da curadoria - tornando as coisas fáceis de encontrar, entender e acessar.
O que é curadoria de dados?
Se curadoria descreve coleções de itens selecionados e gerenciados para atender às necessidades de um grupo específico, os dados selecionados são uma coleção de conjuntos de dados selecionados e gerenciados para atender às necessidades e interesses de um grupo específico de pessoas.
A curadoria de dados, então, é o trabalho de organizar e gerenciar uma coleção de conjuntos de dados para atender às necessidades e interesses de um grupo específico de pessoas.
Quem são os curadores de dados?
Todo mundo que trabalha com dados tem a oportunidade de fazer uma curadoria compartilhando seus conhecimentos e experiências.
O gerenciamento colaborativo de dados é uma necessidade no mundo do autoatendimento e o compartilhamento de conhecimento é o primeiro passo na criação da cultura colaborativa. Os colaboradores de curadoria serão grandes em número, com um nível modesto de responsabilidade e comprometimento de tempo.
Os curadores de domínio têm experiência em domínios de dados específicos, como cliente, produto, finanças, etc. Os curadores de domínio registram e compartilham o conhecimento do domínio de dados que ajuda os analistas de dados a entender a natureza dos dados com os quais trabalham.
O número de curadores de domínio é substancialmente menor que o número de curadores colaborativos, com maior nível de responsabilidade e comprometimento de tempo.
A maioria das organizações terá um ou muito poucos curadores principais responsáveis por moderar o conteúdo do catálogo de dados, da mesma forma que os moderadores do wiki gerenciam o conteúdo. Os curadores líderes têm um alto nível de responsabilidade pela qualidade dos metadados e do catálogo - responsabilidades que exigem um comprometimento substancial do tempo.
Por que você precisa de curadoria de dados?
As organizações investem pesadamente em análise de Big Data. Com os volumes de dados crescendo muito, a preparação dos dados necessários para análise se tornou um processo caro e demorado.
Vários conjuntos de dados de diferentes origens devem primeiro ser catalogados e conectados antes que possam ser usados por várias ferramentas de análise. Entenda porque a curadoria é importante:
Aprendizado de máquina eficaz
Os algoritmos de Machine Learning fizeram grandes progressos no sentido de entender o espaço do consumidor. A IA que consiste em redes neurais colabora e pode usar o Deep Learning para reconhecer padrões. No entanto, os seres humanos precisam intervir, pelo menos inicialmente, para direcionar o comportamento algorítmico para um aprendizado eficaz.
As curadorias são sobre onde os humanos podem realmente adicionar seu conhecimento ao que a máquina automatizou. Isso resulta na preparação para processos inteligentes de autoatendimento, configurando organizações para obter insights.
Garantindo a qualidade dos dados
Os curadores de dados limpam e realizam ações para garantir ações de longo prazo para garantir a preservação e retenção a longo prazo da natureza autorizada dos objetos digitais.
Etapas na curadoria de dados:
1. Identificação
É necessário identificar diferentes fontes de dados de interesse antes de começar a trabalhar em uma declaração de problema. A identificação do conjunto de dados é tão importante quanto a solução. Muitas pessoas subestimam o valor da identificação de dados. Porém, quando se faz a identificação dos dados da maneira correta, pode-se economizar muito tempo desperdiçado, o que pode ocorrer enquanto otimiza a solução do problema
2. Limpeza
Depois de ter alguns dados em mãos, é necessário limpá-los. Os dados recebidos podem ter muitas anomalias, como erros de ortografia, valores ausentes, entradas incorretas etc. A limpeza de dados é uma das tarefas mais importantes sob a curadoria de dados.
3. Transformação
A transformação de dados é o processo de conversão de dados ou informações de um formato para outro, geralmente do formato de um sistema de origem para o formato exigido de um novo sistema de destino.
O processo usual envolve a conversão de documentos, mas as conversões de dados às vezes envolvem a conversão de um programa de uma linguagem de computador para outra para permitir que o programa seja executado em uma plataforma diferente.
O motivo usual para essa migração de dados é a adoção de um novo sistema totalmente diferente do anterior. A curadoria de dados também cuida da transformação de dados.
Escreva seu comentário