Problemas com Lattes

Leandro Nunes leandronunes at gmail.com
Mon May 11 15:07:56 BRT 2015


Massa Aurium :)

Agora no meu caso não identificou todos os caracteres direito não.

Segue imagem e o que identificou foi "1NXC;gH%"

2015-05-11 15:04 GMT-03:00 "Aurélio A. Heckert" <aurelio em colivre.coop.br>:

>  Como escapar do captcha:
>
> O captcha é carregado por uma url específica, sem parametrização então ela
> deve usar o cookie de sessão para fazer a validação, portanto o scrapper
> deve cuidar disso.
>
> Esse captcha é fraco o suficiente para ser quebrado com OCR em uma boa
> porcentagem das tentativas.
>
> Teste na sua máquina:
> $ wget
> http://buscatextual.cnpq.br/buscatextual/servlet/captcha?metodo=getImagemCaptcha
> -O img
> $ convert img -negate -colorspace gray -fx 'g*1.5' img2.png
> $ tesseract img2.png stdout | sed 's/[^a-z0-9]//gi'
>
> Se vc não tem o OCR tesseract, instale aí:
> # aptitude install tesseract-ocr-por tesseract-ocr tesseract-ocr-eng
>
> Pq o convert?
> O convert (imagemagick) faz duas coisas: inverte as cores (pq em todos os
> meus testes elas estavam em branco no undo escuro); Coloca em grayscale e
> multiplica as componentes para que os tons claros fiquem brancos, porque o
> tesseract trabalha com imagens de forte contraste.
>
> Pq o sed?
> Pq alguns ruídos podem ser interpretados como pontuação. (acontece em
> poucos casos, mas vale mitigar)
>
>
> On 11-05-2015 12:57, Rodrigo Souto wrote:
>
> Arthur, acho que essa é o plugin deve ser feito com base na forma
> oficial do lattes de divulgar dados. Infelizmente hoje isso se dá
> dessa forma aí. Burlar captcha ou usar "métodos alternativos" é
> gambiarra que vai nos dar dor de cabeça no futuro.
>
> Arthur Del Esposte escreveu isso ai:
>
>  Não conheço nenhum caso, mas existe a possibilidade de vínculo com o CNPQ
> para se ter acesso integral ao lattes.
> http://www.cnpq.br/web/portal-lattes/extracoes-de-dados
>
> Talvez poderia-se pensar num plugin que tivesse como pré-requisito esse
> certificado de acesso...
>
>
>
>
>
> Em 8 de maio de 2015 20:47, Bráulio Bhavamitra <braulio em eita.org.br> <braulio em eita.org.br>
> escreveu:
>
>
>  Que saco essa turma do Latters, Arthur...
>
> Lutar contra o captcha realmente me parece loucura. A única coisa que
> consigo pensar é um link para a página da currículo, ao invés de puxar os
> dados...
>
> abraços,
> bráulio
>
> 2015-05-08 11:55 GMT-03:00 Arthur Del Esposte <arthurmde em gmail.com> <arthurmde em gmail.com>:
>
>
>  Pessoal,
>
> Noosfero atualmente tem um plugin do Lattes que permite ao usuário
> informar o link de seu currículo Lattes e a partir daí adiciona uma aba
> nova no mural do usuário para apresentar o currículo dele.
>
> A versão existente fazia requisições à plataforma lattes (http://lattes.cnpq.br/) e tratava o HTML recebido para apresentá-lo no
> mural.
> O pessoal que mantém o Lattes não é muito adepto a dar acesso aos dados e
> até mesmo buscam fechar ao máximo esse acesso =/. Não oferecem nenhuma API
> ou base de dados aberta e inviabilizam qualquer oportunidade de extração
> automatizada
> .
> Então, recentemente eles colocaram um Captcha para visualizar um
> currículo, ou seja, o nosso plugin não funciona mais.
>
> Uma proposta diferente para esse plugin seria baseado no XML do currículo
> que pode ser extraído do lattes também (depois de passar por captchas).
> Nesse caso, o usuário teria que subir o arquivo XML para o Noosfero de onde
> extrairíamos as informações.
>
> Alguma ideia sustentável e melhor de como esse plugin pode funcionar?
>
>
> Arthur
>
>
>
>
> _______________________________________________
> Noosfero-br mailing listNoosfero-br em listas.softwarelivre.orghttp://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>
> --
> "Lute pela sua ideologia. Seja um com sua ideologia. Viva pela sua
> ideologia. Morra por sua ideologia" P.R. Sarkar
>
> EITA - Educação, Informação e Tecnologias para Autogestãohttp://cirandas.net/brauliobohttp://eita.org.br
>
> "Paramapurusha é meu pai e Parama Prakriti é minha mãe. O universo é meu
> lar e todos nós somos cidadãos deste cosmo. Este universo é a imaginação da
> Mente Macrocósmica, e todas as entidades estão sendo criadas, preservadas e
> destruídas nas fases de extroversão e introversão do fluxo imaginativo
> cósmico. No âmbito pessoal, quando uma pessoa imagina algo em sua mente,
> naquele momento, essa pessoa é a única proprietária daquilo que ela
> imagina, e ninguém mais. Quando um ser humano criado mentalmente caminha
> por um milharal também imaginado, a pessoa imaginada não é a propriedade
> desse milharal, pois ele pertence ao indivíduo que o está imaginando. Este
> universo foi criado na imaginação de Brahma, a Entidade Suprema, por isso
> a propriedade deste universo é de Brahma, e não dos microcosmos que também
> foram criados pela imaginação de Brahma. Nenhuma propriedade deste mundo,
> mutável ou imutável, pertence a um indivíduo em particular; tudo é o
> patrimônio comum de todos."
> Restante do texto emhttp://cirandas.net/brauliobo/blog/a-problematica-de-hoje-em-dia
>
> _______________________________________________
> Noosfero-br mailing listNoosfero-br em listas.softwarelivre.orghttp://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>    _______________________________________________
> Noosfero-br mailing listNoosfero-br em listas.softwarelivre.orghttp://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>
>
> _______________________________________________
> Noosfero-br mailing listNoosfero-br em listas.softwarelivre.orghttp://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>
> --
>
> *Aurélio A. Heckert (aka Aurium)*
> http://softwarelivre.org/aurium
> *COLIVRE — Coop. de Tecnologias Livres*
> http://colivre.coop.br
>
> *Inkscape* — Desenhe Livremente
> http://inkscapeBrasil.org
>
> _______________________________________________
> Noosfero-br mailing list
> Noosfero-br em listas.softwarelivre.org
> http://listas.softwarelivre.org/cgi-bin/mailman/listinfo/noosfero-br
>
>


-- 
Dois Axé!!!

-----
"Comece fazendo o que é necessário, depois o que é possível e de repente
você estará fazendo o impossível."
                                   São Francisco de Assis
Leandro Nunes
-------------- Pr�xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150511/4c1f5ada/attachment-0001.html>
-------------- Pr�xima Parte ----------
Um anexo n�o-texto foi limpo...
Nome: logoColivre_p.gif
Tipo: image/gif
Tamanho: 5576 bytes
Descri��o: n�o dispon�vel
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150511/4c1f5ada/attachment-0001.gif>
-------------- Pr�xima Parte ----------
Um anexo n�o-texto foi limpo...
Nome: img2.png
Tipo: image/png
Tamanho: 8988 bytes
Descri��o: n�o dispon�vel
URL: <http://listas.softwarelivre.org/pipermail/noosfero-br/attachments/20150511/4c1f5ada/attachment-0001.png>


More information about the Noosfero-br mailing list