Pesquisar

Análise exploratória e manipulação de dados em Big Data

25/09/2024 às 16:50

Descrição do Projeto:

Instruções

Aplicar os conceitos sobre Big Data, mais especificamente no que diz respeito ao "V" de Volume, utilizando o Google Colab. Pesquisar formas para manipulação de grandes volumes de dados. A proposta é explorar uma base de dados de mais de 16GB, enfrentando os desafios práticos de performance e análise exploratória de dados.

Objetivo:

Realizar uma análise exploratória inicial e manipulação de uma base de dados com mais de 10GB, utilizando técnicas de otimização para manipulação eficiente em ambientes de memória limitada (como é o do Google Colab gratuito).

Instruções:

Usar a base de dados:
https://drive.google.com/file/d/1rQF3-fCrBVzvFn585xBCYIUOUEz-qVnY/view?usp=sharing

Explicação sobre o conjunto de dados:
https://www.kaggle.com/datasets/eaLtman2019/ibm-transactions-for-anti-money-laundering-aml

Configuração no Google Colab: Você deve utilizar o Google Colab para realizar a análise. Explicar como configurou o ambiente, incluindo:
- Como montou uma conexão com o Google Drive (ou outra fonte) para carregar a base de dados.
- Quais técnicas utilizou para ler e armazenar os dados de forma eficiente (uso de chunks, compressão de arquivos, etc.).

Análise Exploratória de Dados (EDA): Realize uma análise exploratória inicial da base de dados, incluindo:
- Quantidade total de registros
- Quantidade de colunas

Manipulação de Dados: Realize algumas manipulações nos dados, utilizando as técnicas que estudamos:
- Pesquise e aplique a técnica de leitura dos grandes arquivos utilizando o argumento chunksize do Pandas, Dask, PySpark, ou outro método; escolha três.
- Exiba análises estatísticas (describe) do conjunto de dados.
- Entendimento dos dados (datainfo).
- Valores faltantes.
- Registros duplicados.
- Tipos de dados das variáveis (object, int64...).
- Detecção de outliers (Boxplot é ótimo).
- Número de ocorrências por data (Dica: crie um campo só com a data a partir da variável Timestamp).
- Retorne o valor máximo, mínimo e média para os valores pagos e valores recebidos.
- Retorne os valores únicos das moedas utilizadas nos pagamentos e nos recebimentos.
- Retorne os valores únicos dos formatos de pagamento utilizados.
- Retorne a quantidade de registros marcados como lavagem e não lavagem de dinheiro em valores absolutos e valores relativos (porcentuais).
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por banco de origem.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por moeda utilizada.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por formato de pagamento.

Desempenho e Limitações: Ao final, descreva os desafios que enfrentou ao trabalhar com grandes volumes de dados e compare as soluções que explorou (uso de Pandas com chunks, Dask, PySpark, ou outro método); escolha três métodos. Explique as limitações encontradas e as soluções que considerou mais eficientes e por quê.

CONCLUSÃO: Executar uma análise dos métodos que selecionou e explicar as dificuldades e soluções encontradas.
Um relatório em PDF explicando todas as etapas do processo: configuração do Colab, análise exploratória e manipulação dos dados.

Atividades do cliente nesse projeto:

Última visualização: 21/11/2024 às 11:56

Última interação: 26/09/2024 às 08:34

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Outra - Web, Mobile & Software
Orçamento: Aberto
Nível de experiência: Intermediário
Visibilidade: Público
Propostas: 3
Interessados: 5
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (3)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Robô para Bac Bo via Telegram - Gostaria de um robô para Bac Bo, via Telegram, que operasse de dois modos, com estratégias que eu criar no bot: estratégia por cores que poderiam usar as bolinhas de emoji (?, ?...

Adicionar link do checkout na landing page - Um freelancer fez isso, mas de forma incompleta. O link do checkout só funciona no desktop. Preciso que alguém faça funcionar no mobile também.

Criar software para replicação de operações na B3 - Preciso criar um software que conecte com a API das corretoras, inicialmente podendo ser apenas uma, como a XP Investimentos. O software deve replicar todas as operações que ocorrerem...

Gestor de IA para construção de agentes - Busco um profissional com experiência na criação de agentes de IA. A tarefa consiste em criar dois agentes conversacionais (pré-venda e pós-venda) e um agente de ...

Projeto de integração contínua e DevOps - Preciso fazer um projeto para a faculdade. É para entrega até amanhã, 23:59. A aplicação pode ser a mais simples possível, mas precisa ter esses passos: D...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.