Pesquisar

Programa para extrair e classificar frases obtidas em arquivos de legendas

13/12/2023 às 15:04

Descrição do Projeto:

Programa para classificar frases extraídas de legendas

Preciso de um programa que classifique frases extraídas de uma pasta com milhares de legendas de acordo com a frequência das palavras que formam as frases. As legendas foram baixadas de https://www.opensubtitles.org/ e estão no formato .srt dentro de um arquivo .zip cada uma..

O programa deve ser capaz de remover caracteres especiais, linhas de tempo, números e outros elementos que não sejam letras/palavras que compõem frases.

Deve haver uma função para identificar frases, mesmo com a quebra de linha dos arquivos. Uma frase padrão tem início após “.” “!” ou “?” e termina também com “.” “!” ou “?”. Veja um exemplo:

—----------------------------------------------------
>>>>Entrada:

8
00:00:18,643 --> 00:00:21,061
How do we get you to stop
with this ghost nonsense?

9
00:00:21,062 --> 00:00:24,440
Lucas could spend his last years
in high school without a mom.

10
00:00:24,441 --> 00:00:25,566
That's a lot coming from you.

>>>>Saída:

How do we get you to stop with this ghost nonsense?
Lucas could spend his last years in high school without a mom.
That's a lot coming from you.
—----------------------------------------------------

Em seguida, o programa deve contar quantas vezes cada palavra aparece nos arquivos e classificá-las. Então, será gerado um arquivo chamado palavras.txt com a lista de palavras e o número de vezes que ela apareceu, da mais frequente para a menos frequente. Exemplo:
—----------------------------------------------------
you=255674
to=248567
I=231857
for=201864
—----------------------------------------------------
Depois disso, é preciso classificar as frases. Cada palavra recebe uma pontuação que é a quantidade de vezes que ela aparece nos arquivos. Assim, é somada a pontuação total da frase de acordo com a pontuação de cada palavra que está presente na frase.

Desse modo, o programa classifica as frases começando da frase com menor pontuação para a de maior pontuação. Deverá ser gerado um arquivo frases.txt com a lista de frases.

O arquivo gerado vai conter algumas frases com erros, mas não tem problema, pois será feita uma revisão manual do arquivo para selecionar as melhores frases e descartar algumas.

No entanto, é importante que o arquivo inicial das frases esteja bem “limpo” e as frases bem escritas para que o arquivo de saída fique o mais bem organizado possível. “Onde entra lixo, sai lixo!”

Os inputs são:
Local da pasta com as legendas
Número de frases a serem classificadas no arquivo de saída
Local dos arquivos de saída.

Os outputs são:
palavras.txt
frases.txt

Atividades do cliente nesse projeto:

Última visualização: 01/01/2024 às 08:28

Última interação: 13/12/2023 às 20:04

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Desenvolvimento Desktop
Orçamento: Aberto
Nível de experiência: Especialista
Visibilidade: Público
Propostas: 1
Interessados: 4
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (1)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Desenvolvedor backend em Python - Desenvolvimento de sistema utilizando Python Serviço para 1 mês, meio período. Ps: tem que constar isso na apresentação de proposta comercial [PDF]

Incluir funcionalidade em tabela Java - Preciso de uma classe/método em Java SWT (JDK 22) onde eu vou passar uma tabela do tipo org.eclipse.swt.widgets.Table como parâmetro preenchida. Por exemplo: AplicarFuncs(table) com da...

Software de assinatura para modelo copiar e colar - O software vai efetuar essas formas de transporte de informação por: - Reconhecimento de nomenclaturas; - Reconhecimento de campos por unidade de arquivo; - Reconhecimento de arquivo...

Correção de erros em um software com Visual Studio 13 - Preciso corrigir erros em um software no Visual Studio 13 para conseguir criar o executável dele. Linguagem C#.

Programação para definir um layout que o PrintNode envia para impressora - Uso um sistema que usa o PrintNode para imprimir na minha impressora Zebra. Por uma necessidade específica, preciso estabelecer uma regra em que a cada evento (cada 2 etiquetas), a primeira ...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.