Pesquisar

Análise exploratória e manipulação de dados em Big Data

25/09/2024 às 16:50

Descrição do Projeto:

Instruções

Aplicar os conceitos sobre Big Data, mais especificamente no que diz respeito ao "V" de Volume, utilizando o Google Colab. Pesquisar formas para manipulação de grandes volumes de dados. A proposta é explorar uma base de dados de mais de 16GB, enfrentando os desafios práticos de performance e análise exploratória de dados.

Objetivo:

Realizar uma análise exploratória inicial e manipulação de uma base de dados com mais de 10GB, utilizando técnicas de otimização para manipulação eficiente em ambientes de memória limitada (como é o do Google Colab gratuito).

Instruções:

Usar a base de dados:
https://drive.google.com/file/d/1rQF3-fCrBVzvFn585xBCYIUOUEz-qVnY/view?usp=sharing

Explicação sobre o conjunto de dados:
https://www.kaggle.com/datasets/eaLtman2019/ibm-transactions-for-anti-money-laundering-aml

Configuração no Google Colab: Você deve utilizar o Google Colab para realizar a análise. Explicar como configurou o ambiente, incluindo:
- Como montou uma conexão com o Google Drive (ou outra fonte) para carregar a base de dados.
- Quais técnicas utilizou para ler e armazenar os dados de forma eficiente (uso de chunks, compressão de arquivos, etc.).

Análise Exploratória de Dados (EDA): Realize uma análise exploratória inicial da base de dados, incluindo:
- Quantidade total de registros
- Quantidade de colunas

Manipulação de Dados: Realize algumas manipulações nos dados, utilizando as técnicas que estudamos:
- Pesquise e aplique a técnica de leitura dos grandes arquivos utilizando o argumento chunksize do Pandas, Dask, PySpark, ou outro método; escolha três.
- Exiba análises estatísticas (describe) do conjunto de dados.
- Entendimento dos dados (datainfo).
- Valores faltantes.
- Registros duplicados.
- Tipos de dados das variáveis (object, int64...).
- Detecção de outliers (Boxplot é ótimo).
- Número de ocorrências por data (Dica: crie um campo só com a data a partir da variável Timestamp).
- Retorne o valor máximo, mínimo e média para os valores pagos e valores recebidos.
- Retorne os valores únicos das moedas utilizadas nos pagamentos e nos recebimentos.
- Retorne os valores únicos dos formatos de pagamento utilizados.
- Retorne a quantidade de registros marcados como lavagem e não lavagem de dinheiro em valores absolutos e valores relativos (porcentuais).
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por banco de origem.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por moeda utilizada.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por formato de pagamento.

Desempenho e Limitações: Ao final, descreva os desafios que enfrentou ao trabalhar com grandes volumes de dados e compare as soluções que explorou (uso de Pandas com chunks, Dask, PySpark, ou outro método); escolha três métodos. Explique as limitações encontradas e as soluções que considerou mais eficientes e por quê.

CONCLUSÃO: Executar uma análise dos métodos que selecionou e explicar as dificuldades e soluções encontradas.
Um relatório em PDF explicando todas as etapas do processo: configuração do Colab, análise exploratória e manipulação dos dados.

Atividades do cliente nesse projeto:

Última visualização: 12/11/2024 às 09:14

Última interação: 26/09/2024 às 08:34

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Outra - Web, Mobile & Software
Orçamento: Aberto
Nível de experiência: Intermediário
Visibilidade: Público
Propostas: 3
Interessados: 5
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (3)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Desenvolvimento de robô de sinais para roleta no Telegram - Procuro um desenvolvedor que possa atender à minha demanda. Precisamos de um bot para analisar os padrões das mesas de roleta das fornecedoras "Evolution e Pragmatic". Al&e...

Criação de landing pages para agência de web design - Descrição do projeto Procuro um profissional especializado em desenvolvimento web para criar landing pages otimizadas para minha agência de web design. Já possuo um site ...

Desenvolvimento de disparador de WhatsApp personalizado - Título do Projeto: Desenvolvimento de Disparador de WhatsApp Personalizado Descrição do Projeto: Olá, estou em busca de um desenvolvedor qualificado para criar um siste...

Desenvolver socket server e socket client - Desenvolver um socket server e um socket client em duas linguagens diferentes. Requisitos: - Permitir várias conexões simultâneas no server; - Manter um gatekeeper de conex&a...

Painel de dados para advocacia - Olá a todos, sou advogado e quero fazer um painel onde eu possa preencher e buscar dados específicos do PJE, que é o portal que os advogados usam para visualizar processos. Des...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.