[Wsl] Extraindo resumos/abstracts dos artigos

Filipe Saraiva mail at filipesaraiva.info
Mon Jul 21 10:58:54 BRT 2014


Terminei a extração dos resumos de todas as edições do WSL que temos.

Em 17-07-2014 18:51, Filipe Saraiva escreveu:
> Fiz a de 2005 também.
>
> Faltando 2004, 2006, 2007, 2008. Ainda não temos os artigos de 2000 e
> 2002.
>
> Em 17-07-2014 13:16, Filipe Saraiva escreveu:
>> Oi pessoal, um dado importante que temos que prover nos metadados são os
>> resumos ou abstracts de cada artigo.
>>
>> Criei um workflow para fazer isso, seguem os passos:
>>
>> 1 - Adicione um campo 'abstract:' logo após o campo 'title:' de cada
>> artigo nos arquivos de metadados data.yaml;
>> 2 - Utilize esse site http://pdf2html.tabesugi.net:8080/ que converte
>> PDF para TXT. Suba um artigo no formato PDF, coloque em 'Page numbers' o
>> valor 0 e clique 'Convert to TEXT';
>> 3 - Copie o abstract ou o resumo - escolha pelo idioma utilizado no artigo;
>> 4 - Execute utilizando python3 o código processaResumo.py em anexo,
>> utilizando o abstract ou resumo do passo anterior como argumento,
>> colocando-o entre aspas simples ou duplas. Ele fará uma série de
>> substituições no texto do resumo/abstract para corrigir erros obtidos no
>> processo de extração do texto. Veja um exemplo em
>> https://asciinema.org/a/10854
>> 5 - Copie o texto processado e cole no campo 'abstract:' do artigo no
>> arquivo data.yaml.
>>
>> Vocês podem ver exemplos de como ficam os arquivos data.yaml no
>> repositório, em algum dos anos que já fiz: 2001, 2009, 2010, 2011, 2012,
>> 2013 e 2014.
>>
>> Estão faltando: 2004, 2005, 2006, 2007, 2008. Ainda não temos os artigos
>> de 2000 e 2002.
>>
>> Se alguém for fazer algum, por favor avisem antes aqui na thread para
>> evitarmos esforços duplicados. Qualquer dúvida mandem e-mail para cá também.
>>
>> Valeu;
>>
>>
>>
>> _______________________________________________
>> Wsl mailing list
>> Wsl at listas.softwarelivre.org
>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/wsl
>
>
> -- 
> Filipe Saraiva
> http://filipesaraiva.info/
>
>
> _______________________________________________
> Wsl mailing list
> Wsl at listas.softwarelivre.org
> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/wsl


-- 
Filipe Saraiva
http://filipesaraiva.info/

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listas.softwarelivre.org/pipermail/wsl/attachments/20140721/a0fc0582/attachment.html>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: OpenPGP digital signature
URL: <http://listas.softwarelivre.org/pipermail/wsl/attachments/20140721/a0fc0582/attachment.pgp>


More information about the Wsl mailing list