Problemas com Lattes

"Aurélio A. Heckert" aurelio at colivre.coop.br
Tue May 12 16:17:46 BRT 2015


Então, nas minhas experiencias com Captcha X OCR, vc tem que deixar o 
bot num loop de tentativas.

Na maioria das vezes o OCR falha, mas quão mais legível for o captcha, 
maior a chance de uma hora ele acertar. Nesse daí deve passar em poucas 
tentativas... por volta de 5 em média, eu acho.

On 11-05-2015 15:07, Leandro Nunes wrote:
> Massa Aurium :)
>
> Agora no meu caso não identificou todos os caracteres direito não.
>
> Segue imagem e o que identificou foi "1NXC;gH%"
>
> 2015-05-11 15:04 GMT-03:00 "Aurélio A. Heckert" 
> <aurelio em colivre.coop.br <mailto:aurelio em colivre.coop.br>>:
>
>     Como escapar do captcha:
>
>     O captcha é carregado por uma url específica, sem parametrização
>     então ela deve usar o cookie de sessão para fazer a validação,
>     portanto o scrapper deve cuidar disso.
>
>     Esse captcha é fraco o suficiente para ser quebrado com OCR em uma
>     boa porcentagem das tentativas.
>
>     Teste na sua máquina:
>     $ wget
>     http://buscatextual.cnpq.br/buscatextual/servlet/captcha?metodo=getImagemCaptcha
>     -O img
>     $ convert img -negate -colorspace gray -fx 'g*1.5' img2.png
>     $ tesseract img2.png stdout | sed 's/[^a-z0-9]//gi'
>
>     Se vc não tem o OCR tesseract, instale aí:
>     # aptitude install tesseract-ocr-por tesseract-ocr tesseract-ocr-eng
>
>     Pq o convert?
>     O convert (imagemagick) faz duas coisas: inverte as cores (pq em
>     todos os meus testes elas estavam em branco no undo escuro);
>     Coloca em grayscale e multiplica as componentes para que os tons
>     claros fiquem brancos, porque o tesseract trabalha com imagens de
>     forte contraste.
>
>     Pq o sed?
>     Pq alguns ruídos podem ser interpretados como pontuação. (acontece
>     em poucos casos, mas vale mitigar)
>
>
>     On 11-05-2015 12:57, Rodrigo Souto wrote:
>>     Arthur, acho que essa é o plugin deve ser feito com base na forma
>>     oficial do lattes de divulgar dados. Infelizmente hoje isso se dá
>>     dessa forma aí. Burlar captcha ou usar "métodos alternativos" é
>>     gambiarra que vai nos dar dor de cabeça no futuro.
>>
>>     Arthur Del Esposte escreveu isso ai:
>>>     Não conheço nenhum caso, mas existe a possibilidade de vínculo com o CNPQ
>>>     para se ter acesso integral ao lattes.
>>>
>>>     http://www.cnpq.br/web/portal-lattes/extracoes-de-dados
>>>
>>>     Talvez poderia-se pensar num plugin que tivesse como pré-requisito esse
>>>     certificado de acesso...
>>>
>>>
>>>
>>>
>>>
>>>     Em 8 de maio de 2015 20:47, Bráulio Bhavamitra<braulio em eita.org.br>  <mailto:braulio em eita.org.br>
>>>     escreveu:
>>>
>>>>     Que saco essa turma do Latters, Arthur...
>>>>
>>>>     Lutar contra o captcha realmente me parece loucura. A única coisa que
>>>>     consigo pensar é um link para a página da currículo, ao invés de puxar os
>>>>     dados...
>>>>
>>>>     abraços,
>>>>     bráulio
>>>>
>>>>     2015-05-08 11:55 GMT-03:00 Arthur Del Esposte<arthurmde em gmail.com>  <mailto:arthurmde em gmail.com>:
>>>>
>>>>>     Pessoal,
>>>>>
>>>>>     Noosfero atualmente tem um plugin do Lattes que permite ao usuário
>>>>>     informar o link de seu currículo Lattes e a partir daí adiciona uma aba
>>>>>     nova no mural do usuário para apresentar o currículo dele.
>>>>>
>>>>>     A versão existente fazia requisições à plataforma lattes (
>>>>>     http://lattes.cnpq.br/) e tratava o HTML recebido para apresentá-lo no
>>>>>     mural.
>>>>>     O pessoal que mantém o Lattes não é muito adepto a dar acesso aos dados e
>>>>>     até mesmo buscam fechar ao máximo esse acesso =/. Não oferecem nenhuma API
>>>>>     ou base de dados aberta e inviabilizam qualquer oportunidade de extração
>>>>>     automatizada
>>>>>     .
>>>>>     Então, recentemente eles colocaram um Captcha para visualizar um
>>>>>     currículo, ou seja, o nosso plugin não funciona mais.
>>>>>
>>>>>     Uma proposta diferente para esse plugin seria baseado no XML do currículo
>>>>>     que pode ser extraído do lattes também (depois de passar por captchas).
>>>>>     Nesse caso, o usuário teria que subir o arquivo XML para o Noosfero de onde
>>>>>     extrairíamos as informações.
>>>>>
>>>>>     Alguma ideia sustentável e melhor de como esse plugin pode funcionar?
>>>>>
>>>>>
>>>>>     Arthur
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>     _______________________________________________
>>>>>     Noosfero-br mailing list
>>>>>     Noosfero-br em listas.softwarelivre.org  <mailto:Noosfero-br em listas.softwarelivre.org>
>>>>>     http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>>>>
>>>>>
>>>>     --
>>>>     "Lute pela sua ideologia. Seja um com sua ideologia. Viva pela sua
>>>>     ideologia. Morra por sua ideologia" P.R. Sarkar
>>>>
>>>>     EITA - Educação, Informação e Tecnologias para Autogestão
>>>>     http://cirandas.net/brauliobo
>>>>     http://eita.org.br
>>>>
>>>>     "Paramapurusha é meu pai e Parama Prakriti é minha mãe. O universo é meu
>>>>     lar e todos nós somos cidadãos deste cosmo. Este universo é a imaginação da
>>>>     Mente Macrocósmica, e todas as entidades estão sendo criadas, preservadas e
>>>>     destruídas nas fases de extroversão e introversão do fluxo imaginativo
>>>>     cósmico. No âmbito pessoal, quando uma pessoa imagina algo em sua mente,
>>>>     naquele momento, essa pessoa é a única proprietária daquilo que ela
>>>>     imagina, e ninguém mais. Quando um ser humano criado mentalmente caminha
>>>>     por um milharal também imaginado, a pessoa imaginada não é a propriedade
>>>>     desse milharal, pois ele pertence ao indivíduo que o está imaginando. Este
>>>>     universo foi criado na imaginação de Brahma, a Entidade Suprema, por isso
>>>>     a propriedade deste universo é de Brahma, e não dos microcosmos que também
>>>>     foram criados pela imaginação de Brahma. Nenhuma propriedade deste mundo,
>>>>     mutável ou imutável, pertence a um indivíduo em particular; tudo é o
>>>>     patrimônio comum de todos."
>>>>     Restante do texto em
>>>>     http://cirandas.net/brauliobo/blog/a-problematica-de-hoje-em-dia
>>>>
>>>>     _______________________________________________
>>>>     Noosfero-br mailing list
>>>>     Noosfero-br em listas.softwarelivre.org  <mailto:Noosfero-br em listas.softwarelivre.org>
>>>>     http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>>>
>>>>
>>>     _______________________________________________
>>>     Noosfero-br mailing list
>>>     Noosfero-br em listas.softwarelivre.org  <mailto:Noosfero-br em listas.softwarelivre.org>
>>>     http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>
>>
>>     _______________________________________________
>>     Noosfero-br mailing list
>>     Noosfero-br em listas.softwarelivre.org  <mailto:Noosfero-br em listas.softwarelivre.org>
>>     http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>     -- 
>
>     *Aurélio A. Heckert (aka Aurium)*
>     http://softwarelivre.org/aurium
>     *COLIVRE — Coop. de Tecnologias Livres*
>     http://colivre.coop.br
>
>     *Inkscape* — Desenhe Livremente
>     http://inkscapeBrasil.org
>
>     _______________________________________________
>     Noosfero-br mailing list
>     Noosfero-br em listas.softwarelivre.org
>     <mailto:Noosfero-br em listas.softwarelivre.org>
>     http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>
>
>
> -- 
> Dois Axé!!!
>
> -----
> "Comece fazendo o que é necessário, depois o que é possível e de 
> repente você estará fazendo o impossível."
>                                    São Francisco de Assis
> Leandro Nunes
>
>
> _______________________________________________
> Noosfero-br mailing list
> Noosfero-br em listas.softwarelivre.org
> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br

-- 

*Aurélio A. Heckert (aka Aurium)*
http://softwarelivre.org/aurium
*COLIVRE — Coop. de Tecnologias Livres*
http://colivre.coop.br

*Inkscape* — Desenhe Livremente
http://inkscapeBrasil.org
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150512/a92e3344/attachment-0001.html>
-------------- Pr?xima Parte ----------
Um anexo n?o-texto foi limpo...
Nome: n?o dispon?vel
Tipo: image/gif
Tamanho: 5576 bytes
Descri??o: n?o dispon?vel
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150512/a92e3344/attachment-0002.gif>
-------------- Pr?xima Parte ----------
Um anexo n?o-texto foi limpo...
Nome: logoColivre_p.gif
Tipo: image/gif
Tamanho: 5576 bytes
Descri??o: n?o dispon?vel
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150512/a92e3344/attachment-0003.gif>


More information about the Noosfero-br mailing list