Pesquisar

Análise exploratória e manipulação de dados em Big Data

25/09/2024 às 16:50

Descrição do Projeto:

Instruções

Aplicar os conceitos sobre Big Data, mais especificamente no que diz respeito ao "V" de Volume, utilizando o Google Colab. Pesquisar formas para manipulação de grandes volumes de dados. A proposta é explorar uma base de dados de mais de 16GB, enfrentando os desafios práticos de performance e análise exploratória de dados.

Objetivo:

Realizar uma análise exploratória inicial e manipulação de uma base de dados com mais de 10GB, utilizando técnicas de otimização para manipulação eficiente em ambientes de memória limitada (como é o do Google Colab gratuito).

Instruções:

Usar a base de dados:
https://drive.google.com/file/d/1rQF3-fCrBVzvFn585xBCYIUOUEz-qVnY/view?usp=sharing

Explicação sobre o conjunto de dados:
https://www.kaggle.com/datasets/eaLtman2019/ibm-transactions-for-anti-money-laundering-aml

Configuração no Google Colab: Você deve utilizar o Google Colab para realizar a análise. Explicar como configurou o ambiente, incluindo:
- Como montou uma conexão com o Google Drive (ou outra fonte) para carregar a base de dados.
- Quais técnicas utilizou para ler e armazenar os dados de forma eficiente (uso de chunks, compressão de arquivos, etc.).

Análise Exploratória de Dados (EDA): Realize uma análise exploratória inicial da base de dados, incluindo:
- Quantidade total de registros
- Quantidade de colunas

Manipulação de Dados: Realize algumas manipulações nos dados, utilizando as técnicas que estudamos:
- Pesquise e aplique a técnica de leitura dos grandes arquivos utilizando o argumento chunksize do Pandas, Dask, PySpark, ou outro método; escolha três.
- Exiba análises estatísticas (describe) do conjunto de dados.
- Entendimento dos dados (datainfo).
- Valores faltantes.
- Registros duplicados.
- Tipos de dados das variáveis (object, int64...).
- Detecção de outliers (Boxplot é ótimo).
- Número de ocorrências por data (Dica: crie um campo só com a data a partir da variável Timestamp).
- Retorne o valor máximo, mínimo e média para os valores pagos e valores recebidos.
- Retorne os valores únicos das moedas utilizadas nos pagamentos e nos recebimentos.
- Retorne os valores únicos dos formatos de pagamento utilizados.
- Retorne a quantidade de registros marcados como lavagem e não lavagem de dinheiro em valores absolutos e valores relativos (porcentuais).
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por banco de origem.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por moeda utilizada.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por formato de pagamento.

Desempenho e Limitações: Ao final, descreva os desafios que enfrentou ao trabalhar com grandes volumes de dados e compare as soluções que explorou (uso de Pandas com chunks, Dask, PySpark, ou outro método); escolha três métodos. Explique as limitações encontradas e as soluções que considerou mais eficientes e por quê.

CONCLUSÃO: Executar uma análise dos métodos que selecionou e explicar as dificuldades e soluções encontradas.
Um relatório em PDF explicando todas as etapas do processo: configuração do Colab, análise exploratória e manipulação dos dados.

Atividades do cliente nesse projeto:

Última visualização: 21/11/2024 às 11:56

Última interação: 26/09/2024 às 08:34

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Outra - Web, Mobile & Software
Orçamento: Aberto
Nível de experiência: Intermediário
Visibilidade: Público
Propostas: 3
Interessados: 5
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (3)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Desenvolvedor especialista em JS ou Python - Procuro um desenvolvedor para projeto em JS ou Python! O projeto consiste em criar um script que faça a leitura das variáveis de um jogo e gere uma lógica baseada no hist&oacut...

Função em Python para capturar imagem da web - Preciso de uma função em Python que capture uma imagem de um URL que vou inserir e salve a imagem principal do produto em uma pasta do projeto. obter_imagem(url) Entrada: URL do sit...

Automação de sistemas com Trello, WhatsApp, Notion e Google Calendar - Preciso de alguém que tenha a expertise de integrar todos esses sistemas através do Zapier ou outra plataforma de integração. É necessário que haja gatilho...

Automação de locadora de carro com envio de cobrança via WhatsApp - Procuro alguém que faça uma aplicação para locadora de carro, onde além de ter o controle de clientes e vencimentos, a app possa enviar mensagens via chatbot para...

Automação de chatbot com I.A. - Estou em busca de um profissional especializado em automação de chatbots com inteligência artificial, utilizando ferramentas como TypeBot, API do ChatGPT e outras soluç&o...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.