20150522_195349
Manuel Blásquez. Foto de Alexandra Fonseca

Na passada sexta-feira, dia 22 de Maio, decorreu na Faculdade de Ciências Sociais e Humanas (FCSH) uma conferência sobre “Desenvolvimento de crawlers: O MBOT webcrawler e “Desenvolvimento de motores de busca: O navegador WAUSEARCH”, proferida por Manuel Blázquez.

Manuel Blázquez é professor na Facultad de Ciencias de la Documentación da Universidad Complutense de Madrid e investigador na área da recuperação da informação, automatização e desenvolvimento de tecnologias aplicadas à gestão da informação. Entre os seus diversos trabalhos, destaca-se o desenvolvimento de pesquisadores da web, sistemas de gestão de bibliotecas, agregadores de conteúdos e webcrawlers.

Na primeira parte da conferência, acerca do “Desenvolvimento de crawlers: O MBOT webcrawler”, o orador apresentou e explicou o conceito de crawlers, bem como os seus objectivos. O webcrawler consiste num programa dedicado à análise da web, nomeadamente do seu conteúdo. Para levar a cabo esta tarefa é necessário, entre outros aspectos, controlar a ligação entre páginas em linha e hiperligações. Este programa, que rastreia a web, permite a definição de diversos parâmetros de análise, como por exemplo, a selecção de endereços de correio electrónico, hiperligações e metadados. A pesquisa é realizada em ficheiros de texto, imagem, vídeo e áudio, suportando diversos formatos. Blázquez afirma que “é possível analisar toda a web, pelo menos por sectores”, prevendo-se que na próxima versão será exequível a extracção da semântica dos conteúdos. Para concretizar, o investigador realizou uma demonstração prática online sobre a forma de funcionamento do webcrawler MBOT. Este programa permite, a título de exemplo, extrair todos os endereços de correio electrónico de empresas de um determinado sector de actividade ou zona geográfica específica de um país, permitindo o envio massivo de e-mails com candidaturas espontâneas. Neste momento, o MBOT está na quarta versão, encontrando-se em desenvolvimento uma nova versão que será compatível com as novas versões do Apache, PHP e MySQL, bem como o desenvolvimento de um webcrawler passível de analisar a semântica.

Na segunda e última parte da conferência – “Desenvolvimento de motores de busca: O navegador WAUSEARCH” –, partindo do webcrawler, Manuel Blázquez explicou em que consiste um motor de busca, bem como a forma de funcionamento e quais os objectivos do WAUSEARCH. A partir das pesquisas levadas a cabo pelos utilizadores nos diversos motores de busca, este procede à recuperação da informação subjacente a uma base de conhecimento. Blázquez explicou igualmente as diferenças entre um webcrawler que indexa a web, e um motor de busca que procede à pesquisa da informação que foi indexada. Um webcrawler permite igualmente, ao contrário do que ocorre com o motor de busca Google, a exportação dos resultados das pesquisas para um ficheiro Excel (.xls), por exemplo, possibilitando um maior controlo sobre a informação. Tal como em relação ao webcrawler, também no caso do motor de busca WAUSEARCH foi feita demonstração das suas potencialidades. Através da utilização da expressão “recuperación de información” no Google (https://www.google.es/) foram obtidos 31.600.000 resultados, enquanto no WAUSEARCH (http://www.wausearch.com/), utilizando a mesma expressão, foram identificadas 62.800.000 entradas. Ficou demonstrado que este motor de busca permite aglutinar os resultados dos principais motores de busca, nomeadamente o Google, bing e Yahoo!, permitindo ampliar os resultados da pesquisa e atribuir um valor a cada resultado obtido, bem como a sua reordenação. A terminar, Manuel Blázquez afirmou que o WAUSEARCH “não é perfeito, mas quanto mais se utiliza, melhor serão os resultados!”.

Esta conferência insere-se no âmbito de um Ciclo de Conferências, num total de três, subordinadas à temática “Tecnologias da Documentação”, que serão levadas a cabo pelo referido orador nas próximas duas semanas, sempre à sexta-feira, às 18:00, na FCSH. A participação nestas conferências é gratuita.

Próximas conferências:

18h00 | 29 Maio | FCSH/NOVA – Torre B, Auditório 2 (piso 3)
AMPdoc: Automação de unidades de informação

18h00 | 5 Junho| FCSH/NOVA – Torre B, Sala T7 (piso2)
Sistemas de monitorização informativos: AXYZnews

Para mais informações, consulte Actividades – Ciclo de Conferências «Tecnologias da Documentação»

 

Alexandra Fonseca

Similar Posts