Problemas com Lattes

"Aurélio A. Heckert" aurelio at colivre.coop.br
Mon May 11 15:04:23 BRT 2015


Como escapar do captcha:

O captcha é carregado por uma url específica, sem parametrização então 
ela deve usar o cookie de sessão para fazer a validação, portanto o 
scrapper deve cuidar disso.

Esse captcha é fraco o suficiente para ser quebrado com OCR em uma boa 
porcentagem das tentativas.

Teste na sua máquina:
$ wget 
http://buscatextual.cnpq.br/buscatextual/servlet/captcha?metodo=getImagemCaptcha 
-O img
$ convert img -negate -colorspace gray -fx 'g*1.5' img2.png
$ tesseract img2.png stdout | sed 's/[^a-z0-9]//gi'

Se vc não tem o OCR tesseract, instale aí:
# aptitude install tesseract-ocr-por tesseract-ocr tesseract-ocr-eng

Pq o convert?
O convert (imagemagick) faz duas coisas: inverte as cores (pq em todos 
os meus testes elas estavam em branco no undo escuro); Coloca em 
grayscale e multiplica as componentes para que os tons claros fiquem 
brancos, porque o tesseract trabalha com imagens de forte contraste.

Pq o sed?
Pq alguns ruídos podem ser interpretados como pontuação. (acontece em 
poucos casos, mas vale mitigar)

On 11-05-2015 12:57, Rodrigo Souto wrote:
> Arthur, acho que essa é o plugin deve ser feito com base na forma
> oficial do lattes de divulgar dados. Infelizmente hoje isso se dá
> dessa forma aí. Burlar captcha ou usar "métodos alternativos" é
> gambiarra que vai nos dar dor de cabeça no futuro.
>
> Arthur Del Esposte escreveu isso ai:
>> Não conheço nenhum caso, mas existe a possibilidade de vínculo com o CNPQ
>> para se ter acesso integral ao lattes.
>>
>> http://www.cnpq.br/web/portal-lattes/extracoes-de-dados
>>
>> Talvez poderia-se pensar num plugin que tivesse como pré-requisito esse
>> certificado de acesso...
>>
>>
>>
>>
>>
>> Em 8 de maio de 2015 20:47, Bráulio Bhavamitra <braulio em eita.org.br>
>> escreveu:
>>
>>> Que saco essa turma do Latters, Arthur...
>>>
>>> Lutar contra o captcha realmente me parece loucura. A única coisa que
>>> consigo pensar é um link para a página da currículo, ao invés de puxar os
>>> dados...
>>>
>>> abraços,
>>> bráulio
>>>
>>> 2015-05-08 11:55 GMT-03:00 Arthur Del Esposte <arthurmde em gmail.com>:
>>>
>>>> Pessoal,
>>>>
>>>> Noosfero atualmente tem um plugin do Lattes que permite ao usuário
>>>> informar o link de seu currículo Lattes e a partir daí adiciona uma aba
>>>> nova no mural do usuário para apresentar o currículo dele.
>>>>
>>>> A versão existente fazia requisições à plataforma lattes (
>>>> http://lattes.cnpq.br/) e tratava o HTML recebido para apresentá-lo no
>>>> mural.
>>>> O pessoal que mantém o Lattes não é muito adepto a dar acesso aos dados e
>>>> até mesmo buscam fechar ao máximo esse acesso =/. Não oferecem nenhuma API
>>>> ou base de dados aberta e inviabilizam qualquer oportunidade de extração
>>>> automatizada
>>>> .
>>>> Então, recentemente eles colocaram um Captcha para visualizar um
>>>> currículo, ou seja, o nosso plugin não funciona mais.
>>>>
>>>> Uma proposta diferente para esse plugin seria baseado no XML do currículo
>>>> que pode ser extraído do lattes também (depois de passar por captchas).
>>>> Nesse caso, o usuário teria que subir o arquivo XML para o Noosfero de onde
>>>> extrairíamos as informações.
>>>>
>>>> Alguma ideia sustentável e melhor de como esse plugin pode funcionar?
>>>>
>>>>
>>>> Arthur
>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Noosfero-br mailing list
>>>> Noosfero-br em listas.softwarelivre.org
>>>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>>>
>>>>
>>>
>>> --
>>> "Lute pela sua ideologia. Seja um com sua ideologia. Viva pela sua
>>> ideologia. Morra por sua ideologia" P.R. Sarkar
>>>
>>> EITA - Educação, Informação e Tecnologias para Autogestão
>>> http://cirandas.net/brauliobo
>>> http://eita.org.br
>>>
>>> "Paramapurusha é meu pai e Parama Prakriti é minha mãe. O universo é meu
>>> lar e todos nós somos cidadãos deste cosmo. Este universo é a imaginação da
>>> Mente Macrocósmica, e todas as entidades estão sendo criadas, preservadas e
>>> destruídas nas fases de extroversão e introversão do fluxo imaginativo
>>> cósmico. No âmbito pessoal, quando uma pessoa imagina algo em sua mente,
>>> naquele momento, essa pessoa é a única proprietária daquilo que ela
>>> imagina, e ninguém mais. Quando um ser humano criado mentalmente caminha
>>> por um milharal também imaginado, a pessoa imaginada não é a propriedade
>>> desse milharal, pois ele pertence ao indivíduo que o está imaginando. Este
>>> universo foi criado na imaginação de Brahma, a Entidade Suprema, por isso
>>> a propriedade deste universo é de Brahma, e não dos microcosmos que também
>>> foram criados pela imaginação de Brahma. Nenhuma propriedade deste mundo,
>>> mutável ou imutável, pertence a um indivíduo em particular; tudo é o
>>> patrimônio comum de todos."
>>> Restante do texto em
>>> http://cirandas.net/brauliobo/blog/a-problematica-de-hoje-em-dia
>>>
>>> _______________________________________________
>>> Noosfero-br mailing list
>>> Noosfero-br em listas.softwarelivre.org
>>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>>
>>>
>> _______________________________________________
>> Noosfero-br mailing list
>> Noosfero-br em listas.softwarelivre.org
>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>
>
> _______________________________________________
> Noosfero-br mailing list
> Noosfero-br em listas.softwarelivre.org
> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br

-- 

*Aurélio A. Heckert (aka Aurium)*
http://softwarelivre.org/aurium
*COLIVRE — Coop. de Tecnologias Livres*
http://colivre.coop.br

*Inkscape* — Desenhe Livremente
http://inkscapeBrasil.org
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150511/d99e7054/attachment-0001.html>
-------------- Pr?xima Parte ----------
Um anexo n?o-texto foi limpo...
Nome: logoColivre_p.gif
Tipo: image/gif
Tamanho: 5576 bytes
Descri??o: n?o dispon?vel
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150511/d99e7054/attachment-0001.gif>


More information about the Noosfero-br mailing list