[Wsl] Extraindo resumos/abstracts dos artigos

Filipe Saraiva mail at filipesaraiva.info
Thu Jul 17 13:16:26 BRT 2014


Oi pessoal, um dado importante que temos que prover nos metadados são os
resumos ou abstracts de cada artigo.

Criei um workflow para fazer isso, seguem os passos:

1 - Adicione um campo 'abstract:' logo após o campo 'title:' de cada
artigo nos arquivos de metadados data.yaml;
2 - Utilize esse site http://pdf2html.tabesugi.net:8080/ que converte
PDF para TXT. Suba um artigo no formato PDF, coloque em 'Page numbers' o
valor 0 e clique 'Convert to TEXT';
3 - Copie o abstract ou o resumo - escolha pelo idioma utilizado no artigo;
4 - Execute utilizando python3 o código processaResumo.py em anexo,
utilizando o abstract ou resumo do passo anterior como argumento,
colocando-o entre aspas simples ou duplas. Ele fará uma série de
substituições no texto do resumo/abstract para corrigir erros obtidos no
processo de extração do texto. Veja um exemplo em
https://asciinema.org/a/10854
5 - Copie o texto processado e cole no campo 'abstract:' do artigo no
arquivo data.yaml.

Vocês podem ver exemplos de como ficam os arquivos data.yaml no
repositório, em algum dos anos que já fiz: 2001, 2009, 2010, 2011, 2012,
2013 e 2014.

Estão faltando: 2004, 2005, 2006, 2007, 2008. Ainda não temos os artigos
de 2000 e 2002.

Se alguém for fazer algum, por favor avisem antes aqui na thread para
evitarmos esforços duplicados. Qualquer dúvida mandem e-mail para cá também.

Valeu;

-- 
Filipe Saraiva
http://filipesaraiva.info/

-------------- next part --------------
A non-text attachment was scrubbed...
Name: processaResumo.py
Type: text/x-python
Size: 3049 bytes
Desc: not available
URL: <http://listas.softwarelivre.org/pipermail/wsl/attachments/20140717/2634854b/attachment.py>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: OpenPGP digital signature
URL: <http://listas.softwarelivre.org/pipermail/wsl/attachments/20140717/2634854b/attachment.pgp>


More information about the Wsl mailing list