[Wsl] Extraindo resumos/abstracts dos artigos

Filipe Saraiva mail at filipesaraiva.info
Thu Jul 17 18:51:06 BRT 2014


Fiz a de 2005 também.

Faltando 2004, 2006, 2007, 2008. Ainda não temos os artigos de 2000 e 2002.

Em 17-07-2014 13:16, Filipe Saraiva escreveu:
> Oi pessoal, um dado importante que temos que prover nos metadados são os
> resumos ou abstracts de cada artigo.
>
> Criei um workflow para fazer isso, seguem os passos:
>
> 1 - Adicione um campo 'abstract:' logo após o campo 'title:' de cada
> artigo nos arquivos de metadados data.yaml;
> 2 - Utilize esse site http://pdf2html.tabesugi.net:8080/ que converte
> PDF para TXT. Suba um artigo no formato PDF, coloque em 'Page numbers' o
> valor 0 e clique 'Convert to TEXT';
> 3 - Copie o abstract ou o resumo - escolha pelo idioma utilizado no artigo;
> 4 - Execute utilizando python3 o código processaResumo.py em anexo,
> utilizando o abstract ou resumo do passo anterior como argumento,
> colocando-o entre aspas simples ou duplas. Ele fará uma série de
> substituições no texto do resumo/abstract para corrigir erros obtidos no
> processo de extração do texto. Veja um exemplo em
> https://asciinema.org/a/10854
> 5 - Copie o texto processado e cole no campo 'abstract:' do artigo no
> arquivo data.yaml.
>
> Vocês podem ver exemplos de como ficam os arquivos data.yaml no
> repositório, em algum dos anos que já fiz: 2001, 2009, 2010, 2011, 2012,
> 2013 e 2014.
>
> Estão faltando: 2004, 2005, 2006, 2007, 2008. Ainda não temos os artigos
> de 2000 e 2002.
>
> Se alguém for fazer algum, por favor avisem antes aqui na thread para
> evitarmos esforços duplicados. Qualquer dúvida mandem e-mail para cá também.
>
> Valeu;
>
>
>
> _______________________________________________
> Wsl mailing list
> Wsl at listas.softwarelivre.org
> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/wsl


-- 
Filipe Saraiva
http://filipesaraiva.info/

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listas.softwarelivre.org/pipermail/wsl/attachments/20140717/d85ca1dc/attachment.html>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: OpenPGP digital signature
URL: <http://listas.softwarelivre.org/pipermail/wsl/attachments/20140717/d85ca1dc/attachment.pgp>


More information about the Wsl mailing list