Problemas com Lattes
"Aurélio A. Heckert"
aurelio at colivre.coop.br
Tue May 12 16:17:46 BRT 2015
Então, nas minhas experiencias com Captcha X OCR, vc tem que deixar o
bot num loop de tentativas.
Na maioria das vezes o OCR falha, mas quão mais legível for o captcha,
maior a chance de uma hora ele acertar. Nesse daí deve passar em poucas
tentativas... por volta de 5 em média, eu acho.
On 11-05-2015 15:07, Leandro Nunes wrote:
> Massa Aurium :)
>
> Agora no meu caso não identificou todos os caracteres direito não.
>
> Segue imagem e o que identificou foi "1NXC;gH%"
>
> 2015-05-11 15:04 GMT-03:00 "Aurélio A. Heckert"
> <aurelio em colivre.coop.br <mailto:aurelio em colivre.coop.br>>:
>
> Como escapar do captcha:
>
> O captcha é carregado por uma url específica, sem parametrização
> então ela deve usar o cookie de sessão para fazer a validação,
> portanto o scrapper deve cuidar disso.
>
> Esse captcha é fraco o suficiente para ser quebrado com OCR em uma
> boa porcentagem das tentativas.
>
> Teste na sua máquina:
> $ wget
> http://buscatextual.cnpq.br/buscatextual/servlet/captcha?metodo=getImagemCaptcha
> -O img
> $ convert img -negate -colorspace gray -fx 'g*1.5' img2.png
> $ tesseract img2.png stdout | sed 's/[^a-z0-9]//gi'
>
> Se vc não tem o OCR tesseract, instale aí:
> # aptitude install tesseract-ocr-por tesseract-ocr tesseract-ocr-eng
>
> Pq o convert?
> O convert (imagemagick) faz duas coisas: inverte as cores (pq em
> todos os meus testes elas estavam em branco no undo escuro);
> Coloca em grayscale e multiplica as componentes para que os tons
> claros fiquem brancos, porque o tesseract trabalha com imagens de
> forte contraste.
>
> Pq o sed?
> Pq alguns ruídos podem ser interpretados como pontuação. (acontece
> em poucos casos, mas vale mitigar)
>
>
> On 11-05-2015 12:57, Rodrigo Souto wrote:
>> Arthur, acho que essa é o plugin deve ser feito com base na forma
>> oficial do lattes de divulgar dados. Infelizmente hoje isso se dá
>> dessa forma aí. Burlar captcha ou usar "métodos alternativos" é
>> gambiarra que vai nos dar dor de cabeça no futuro.
>>
>> Arthur Del Esposte escreveu isso ai:
>>> Não conheço nenhum caso, mas existe a possibilidade de vínculo com o CNPQ
>>> para se ter acesso integral ao lattes.
>>>
>>> http://www.cnpq.br/web/portal-lattes/extracoes-de-dados
>>>
>>> Talvez poderia-se pensar num plugin que tivesse como pré-requisito esse
>>> certificado de acesso...
>>>
>>>
>>>
>>>
>>>
>>> Em 8 de maio de 2015 20:47, Bráulio Bhavamitra<braulio em eita.org.br> <mailto:braulio em eita.org.br>
>>> escreveu:
>>>
>>>> Que saco essa turma do Latters, Arthur...
>>>>
>>>> Lutar contra o captcha realmente me parece loucura. A única coisa que
>>>> consigo pensar é um link para a página da currículo, ao invés de puxar os
>>>> dados...
>>>>
>>>> abraços,
>>>> bráulio
>>>>
>>>> 2015-05-08 11:55 GMT-03:00 Arthur Del Esposte<arthurmde em gmail.com> <mailto:arthurmde em gmail.com>:
>>>>
>>>>> Pessoal,
>>>>>
>>>>> Noosfero atualmente tem um plugin do Lattes que permite ao usuário
>>>>> informar o link de seu currículo Lattes e a partir daí adiciona uma aba
>>>>> nova no mural do usuário para apresentar o currículo dele.
>>>>>
>>>>> A versão existente fazia requisições à plataforma lattes (
>>>>> http://lattes.cnpq.br/) e tratava o HTML recebido para apresentá-lo no
>>>>> mural.
>>>>> O pessoal que mantém o Lattes não é muito adepto a dar acesso aos dados e
>>>>> até mesmo buscam fechar ao máximo esse acesso =/. Não oferecem nenhuma API
>>>>> ou base de dados aberta e inviabilizam qualquer oportunidade de extração
>>>>> automatizada
>>>>> .
>>>>> Então, recentemente eles colocaram um Captcha para visualizar um
>>>>> currículo, ou seja, o nosso plugin não funciona mais.
>>>>>
>>>>> Uma proposta diferente para esse plugin seria baseado no XML do currículo
>>>>> que pode ser extraído do lattes também (depois de passar por captchas).
>>>>> Nesse caso, o usuário teria que subir o arquivo XML para o Noosfero de onde
>>>>> extrairíamos as informações.
>>>>>
>>>>> Alguma ideia sustentável e melhor de como esse plugin pode funcionar?
>>>>>
>>>>>
>>>>> Arthur
>>>>>
>>>>>
>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> Noosfero-br mailing list
>>>>> Noosfero-br em listas.softwarelivre.org <mailto:Noosfero-br em listas.softwarelivre.org>
>>>>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>>>>
>>>>>
>>>> --
>>>> "Lute pela sua ideologia. Seja um com sua ideologia. Viva pela sua
>>>> ideologia. Morra por sua ideologia" P.R. Sarkar
>>>>
>>>> EITA - Educação, Informação e Tecnologias para Autogestão
>>>> http://cirandas.net/brauliobo
>>>> http://eita.org.br
>>>>
>>>> "Paramapurusha é meu pai e Parama Prakriti é minha mãe. O universo é meu
>>>> lar e todos nós somos cidadãos deste cosmo. Este universo é a imaginação da
>>>> Mente Macrocósmica, e todas as entidades estão sendo criadas, preservadas e
>>>> destruídas nas fases de extroversão e introversão do fluxo imaginativo
>>>> cósmico. No âmbito pessoal, quando uma pessoa imagina algo em sua mente,
>>>> naquele momento, essa pessoa é a única proprietária daquilo que ela
>>>> imagina, e ninguém mais. Quando um ser humano criado mentalmente caminha
>>>> por um milharal também imaginado, a pessoa imaginada não é a propriedade
>>>> desse milharal, pois ele pertence ao indivíduo que o está imaginando. Este
>>>> universo foi criado na imaginação de Brahma, a Entidade Suprema, por isso
>>>> a propriedade deste universo é de Brahma, e não dos microcosmos que também
>>>> foram criados pela imaginação de Brahma. Nenhuma propriedade deste mundo,
>>>> mutável ou imutável, pertence a um indivíduo em particular; tudo é o
>>>> patrimônio comum de todos."
>>>> Restante do texto em
>>>> http://cirandas.net/brauliobo/blog/a-problematica-de-hoje-em-dia
>>>>
>>>> _______________________________________________
>>>> Noosfero-br mailing list
>>>> Noosfero-br em listas.softwarelivre.org <mailto:Noosfero-br em listas.softwarelivre.org>
>>>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>>>
>>>>
>>> _______________________________________________
>>> Noosfero-br mailing list
>>> Noosfero-br em listas.softwarelivre.org <mailto:Noosfero-br em listas.softwarelivre.org>
>>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>>
>>
>> _______________________________________________
>> Noosfero-br mailing list
>> Noosfero-br em listas.softwarelivre.org <mailto:Noosfero-br em listas.softwarelivre.org>
>> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
> --
>
> *Aurélio A. Heckert (aka Aurium)*
> http://softwarelivre.org/aurium
> *COLIVRE — Coop. de Tecnologias Livres*
> http://colivre.coop.br
>
> *Inkscape* — Desenhe Livremente
> http://inkscapeBrasil.org
>
> _______________________________________________
> Noosfero-br mailing list
> Noosfero-br em listas.softwarelivre.org
> <mailto:Noosfero-br em listas.softwarelivre.org>
> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>
>
>
> --
> Dois Axé!!!
>
> -----
> "Comece fazendo o que é necessário, depois o que é possível e de
> repente você estará fazendo o impossível."
> São Francisco de Assis
> Leandro Nunes
>
>
> _______________________________________________
> Noosfero-br mailing list
> Noosfero-br em listas.softwarelivre.org
> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
--
*Aurélio A. Heckert (aka Aurium)*
http://softwarelivre.org/aurium
*COLIVRE — Coop. de Tecnologias Livres*
http://colivre.coop.br
*Inkscape* — Desenhe Livremente
http://inkscapeBrasil.org
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150512/a92e3344/attachment-0001.html>
-------------- Pr?xima Parte ----------
Um anexo n?o-texto foi limpo...
Nome: n?o dispon?vel
Tipo: image/gif
Tamanho: 5576 bytes
Descri??o: n?o dispon?vel
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150512/a92e3344/attachment-0002.gif>
-------------- Pr?xima Parte ----------
Um anexo n?o-texto foi limpo...
Nome: logoColivre_p.gif
Tipo: image/gif
Tamanho: 5576 bytes
Descri??o: n?o dispon?vel
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150512/a92e3344/attachment-0003.gif>
More information about the Noosfero-br
mailing list