Pesquisar

Programa para extrair e classificar frases obtidas em arquivos de legendas

13/12/2023 às 15:04

Descrição do Projeto:

Programa para classificar frases extraídas de legendas

Preciso de um programa que classifique frases extraídas de uma pasta com milhares de legendas de acordo com a frequência das palavras que formam as frases. As legendas foram baixadas de https://www.opensubtitles.org/ e estão no formato .srt dentro de um arquivo .zip cada uma..

O programa deve ser capaz de remover caracteres especiais, linhas de tempo, números e outros elementos que não sejam letras/palavras que compõem frases.

Deve haver uma função para identificar frases, mesmo com a quebra de linha dos arquivos. Uma frase padrão tem início após “.” “!” ou “?” e termina também com “.” “!” ou “?”. Veja um exemplo:

—----------------------------------------------------
>>>>Entrada:

8
00:00:18,643 --> 00:00:21,061
How do we get you to stop
with this ghost nonsense?

9
00:00:21,062 --> 00:00:24,440
Lucas could spend his last years
in high school without a mom.

10
00:00:24,441 --> 00:00:25,566
That's a lot coming from you.

>>>>Saída:

How do we get you to stop with this ghost nonsense?
Lucas could spend his last years in high school without a mom.
That's a lot coming from you.
—----------------------------------------------------

Em seguida, o programa deve contar quantas vezes cada palavra aparece nos arquivos e classificá-las. Então, será gerado um arquivo chamado palavras.txt com a lista de palavras e o número de vezes que ela apareceu, da mais frequente para a menos frequente. Exemplo:
—----------------------------------------------------
you=255674
to=248567
I=231857
for=201864
—----------------------------------------------------
Depois disso, é preciso classificar as frases. Cada palavra recebe uma pontuação que é a quantidade de vezes que ela aparece nos arquivos. Assim, é somada a pontuação total da frase de acordo com a pontuação de cada palavra que está presente na frase.

Desse modo, o programa classifica as frases começando da frase com menor pontuação para a de maior pontuação. Deverá ser gerado um arquivo frases.txt com a lista de frases.

O arquivo gerado vai conter algumas frases com erros, mas não tem problema, pois será feita uma revisão manual do arquivo para selecionar as melhores frases e descartar algumas.

No entanto, é importante que o arquivo inicial das frases esteja bem “limpo” e as frases bem escritas para que o arquivo de saída fique o mais bem organizado possível. “Onde entra lixo, sai lixo!”

Os inputs são:
Local da pasta com as legendas
Número de frases a serem classificadas no arquivo de saída
Local dos arquivos de saída.

Os outputs são:
palavras.txt
frases.txt

Atividades do cliente nesse projeto:

Última visualização: 01/01/2024 às 08:28

Última interação: 13/12/2023 às 20:04

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Desenvolvimento Desktop
Orçamento: Aberto
Nível de experiência: Especialista
Visibilidade: Público
Propostas: 1
Interessados: 4
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (1)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Configuração de placa de vídeo para jogos - Quero alguém que entenda de configuração para que eu possa jogar em 4K e tirar ótimas fotos dos meus personagens no GTA RP FiveM.

Rotina para gerar o BPA-C e BPA-I em Delphi - Trabalho com Delphi Rio e MySQL. Como estou sem tempo para aprender, preciso de uma rotina para gerar o BPA-C e o BPA-I para a unidade de saúde, que deve ser feita em Delphi. Tenho prefer&ec...

Configurar PC para melhor qualidade - Gostaria de alguém que configure minha placa de vídeo 4070 Ti Super para que tenha maior qualidade, permitindo tirar fotos do meu personagem no GTA RP/FIVEM em 4K.

Sistema de consulta de preço - Tenho um arquivo .TXT com os produtos cadastrados. Preciso de um sistema para rodar no PC local, onde haverá um leitor de EAN-13. O cliente passa o produto no leitor e o sistema mostra o nom...

Desenvolvimento de sistema desktop em .NET 8.0 - Necessito de um profissional para responsabilizar-se pelo desenvolvimento "do zero" de um sistema desktop em .NET 8.0 (é essencial que seja nesta versão). Requisitos: 1. D...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.