Embora tenha sido idealizada e proposta no início do segundo milénio (concretamente, em 2001), só recentemente a Web semântica começou a ganhar relevo no panorama das tecnologias da informação. A Web semântica — dita a terceira grande mudança de paradigma no que à Web diz respeito — tem como grande objetivo colocar as máquinas (leia-se computadores) a interpretar e dar significado aos dados que a constituem, aliando técnicas de inteligência artificial com a anotação de documentos, os meta-dados e, sobretudo, as Ontologias. Esta mudança facilita, por exemplo, a interoperabilidade e cooperação entre máquinas ou mesmo a produção de resultados mais fiéis no que concerne aos motores de pesquisa.
A evolução e amadurecimento da internet e das tecnologias associadas conferiram possibilidades à emergência deste novo paradigma. Em particular, destaca-se: a confirmação do XML (eXtensible Markup Language) como língua franca para a interoperabilidade entre sistemas e sua utilização para a anotação de documentos com esquemas de meta-dados; a vasta investigação na área dos sistemas inteligentes assente na introdução de novas técnicas e algoritmos de aprendizagem artificial; e finalmente, mas por certo o mais importante dado ser transversal a todas as restantes áreas, a crescente adoção das Ontologias para a organização do conhecimento num dado domínio de saber.
Visto ser um conceito/artefacto primordial para a evolução da Web nos termos definidos acima, daremos, neste documento, especial enfoque às Ontologias. Introduzimos o conceito e mostramos a sua utilidade num contexto geral, i.e., não focando na Web, mas sim extrapolando para outras áreas como, por exemplo, os sistemas de informação na área da museologia.
Informalmente, uma ontologia é um artefacto que define um conjunto de conceitos, relações e axiomas para um domínio de saber específico, representando e organizando o conhecimento implícito, de forma a que um conjunto de sistemas cooperativos concordem e o partilhem [1,5]. Formalmente vamos mais longe e definimos ontologias como um triplo OD=(C,R,A) onde C é o conjunto das entidades no domínio de saber D e é dividido em conceitos (ex.: Mãe, Pessoa, Filho, Irmão) e instâncias (ex.: Ana, João); R é o conjunto das relações entre entidades em D e é dividido em relações taxonómicas/hierárquicas entre conceitos (ex.: Mãe ‘é uma’ Pessoa), relações conceito-instância (ex.: Ana ‘é instância de’ Mãe), relações não taxonómicas entre conceitos (ex.: Mãe ‘tem filho’ Filho), relações conceitos-dados ou propriedades (ex.: Pessoa ‘data de nascimento’ 2001-01-01); e finalmente A é o conjunto de axiomas que dão consistência à ontologia e são usados para inferir novo conhecimento (ex.: Se duas instâncias do conceito ‘Filho’ têm a mesma instância do conceito ‘Mãe’, então existe uma relação não taxonómica ‘é irmão de’ entre essas instâncias) [2].
O processo da criação de Ontologias é uma tarefa árdua, que deve ser levada a cabo por pessoas experientes no domínio de saber que a ontologia modela. Este processo beneficiou, ao longo dos anos, de uma sistematização imposta, não raras vezes, pelas ferramentas que lhe dão suporte, e.g., o Protégé [3, 4]. No entanto, a profundidade do conhecimento modelado nas Ontologias depende da sua aplicação na prática, sendo portanto comum ver o mesmo domínio modelado com mais ou menos detalhe.
Nos sistemas baseados em conhecimento, as Ontologias são vistas como o modelo do saber sobre o qual assenta a base de conhecimento. Esta base define as instâncias concretas dos conceitos do domínio e as relações entre elas, e serve de ponto de partida para a criação de novo conhecimento através de técnicas de aprendizagem artificial, e.g., machine-learning. De igual forma também nas áreas das bases de dados ou bases de documentos as Ontologias vêm sendo cada vez mais usadas para melhorar pesquisas e interligar vários tipo de sistemas de exploração e gestão.
A nossa experiência em processamento de linguagens de anotação, em processamento de documentos e em técnicas de representação e organização de conhecimento, permitiu-nos explorar a ligação das Ontologias com o espólio digital dos museus (repositórios documentais, bases de dados). Em particular, fizemos essa ligação com o Museu da Emigração e das Comunidades[1] em Fafe. Este museu acerva artefactos vários que retratam, principalmente, o fenómeno da emigração para o Brasil e o retorno no séc. XIX e primeiras décadas do séc. XX.
Contando com a experiência dos curadores deste museu, construímos uma Ontologia que modela o conhecimento (ou parte dele) do fenómeno dos Brasileiros-torna-viagem que, endinheirados aquando do regresso dos Brasis, se tornam filantropos, melhorando o nível de vida em Fafe e arredores. A Ontologia criada (parte dela ilustrada na Fig.1) permitiu explorar várias aplicações, das quais destacamos dois projetos/provas de conceito.
O primeiro, denominado SIME[2], é um gerador semiautomático de salas de exposição virtuais que permite ao utilizador conhecer os vários emigrantes em catálogo e as suas ligações a outros emigrantes, assim como às suas obras beneficentes, aos eventos em que participaram e aos vários documentos a si associados como sejam cartas, fotos, almanaques, passaportes, entre outros. As relações entre conceitos estabelecidas na Ontologia e a anotação das fontes de informação (digitais) — as instâncias da Ontologia — permitiram o cruzamento de dados e a criação efetiva de salas virtuais.
O segundo, denominado Génio[3], é um navegador conceitual, i.e., um navegador sobre os vários conceitos que compõem a Ontologia (retratada na Fig. 2) de forma a chegar às suas instâncias e relações entre si. Em cada navegação por um conceito são apresentadas todas as suas instâncias. Cada uma dessas instâncias é visitável de modo a se observar todas as relações e instâncias a si associadas de acordo com um contexto que se refere a todos os conceitos que têm uma relação taxonómica (ou não) com o conceito em visita. Neste projeto conseguimos estabelecer um mapeamento entre a Ontologia e o esquema complexo da base de dados (de instâncias) de uma forma inovadora e sistemática, embora manual.
Estes dois projetos são uma simples amostra daquilo que as Ontologias associadas aos sistemas de informação nos podem oferecer. Podemos acrescentar a isto a troca de dados / informação / conhecimento entre sistemas similares (ou não) que partilhem, e acordem sobre, o mesmo discurso. Imagine-se a possibilidade de ligar, por exemplo, um museu virtual da emigração com um sistema de genealogia ou mesmo com um conservatório público para a completação da informação museológica, ou ainda com um outro museu interessado no espólio do primeiro. As Ontologias, como artefacto de alinhamento de um discurso, trazem sem dúvida todas estas e mais vantagens.
Ligando novamente à Web semântica, acrescentamos a possibilidade de filtrar informação tendo em conta as relações taxonómicas por parte dos motores de pesquisa. Pesquisar instâncias do conceito Pessoa é muito lato em relação a uma pesquisa pelo conceito Emigrante; e pesquisar por Emigrante que Viajou para o Brasil num dado Ano, por certo providenciará informação mais concreta e fiel tendo em conta a semântica das relações e dos conceitos descritos nas Ontologias. Para este último exemplo, um motor de pesquisa que não tenha em conta a semântica criaria resultados que para além dos relativos à emigração incluem outras coisas como por exemplo viagens (de férias) para o Brasil.
Em jeito de conclusão, reiteramos a importância e o grande contributo das Ontologias para esta nova versão da Web que, recentemente, tem entrado pelos nossos browsers sem pedir licença e que, de bom grado, a temos recebido. Ainda está em evolução, como esteve por muitos anos a Web 2.0 (ou também denominada como social). Aliás, será interessante ver como estas duas versões da Web (semântica e social) se conjugam, dada a sua perfeitamente natural coexistência.
Mas há ainda um grande caminho a percorrer no sentido de normalizar e compatibilizar discursos e preparar máquinas e algoritmos para tirar real partido da semântica e do conhecimento selados nas Ontologias.
Nuno Oliveira e Pedro Rangel Henriques
[3]http://epl.di.uminho.pt/~ritafaria/MEC/
Bibliografia
[1] D. Jin. Ontological Adaptive Integration Of Reverse Engineering Tools. PhD thesis. Queen’s University. 2004.
[2] I. Serra and R. Girardi. A Process for Extracting Non-Taxonomic Relations of Ontologies from Text. In Intelligent Information Management, vol. 3, nr. 4, pp. 119-124. July 2009.
[3] N. Noy and D. McGuinness. Ontology Development 101: A Guide to Creating Your First Ontology. In Development, vol. 32, nr. 1, pp. 1-25. 2001.
[4] M. Horridge and H. Knublauch and A. Rector and R. Stevens and C. Wroe. A Practical Guide To Building OWL Ontologies Using The Protégé-OWL Plugin and CO-ODE Tools. Technical report. The University Of Manchester. August 2004.
[5] S. Grimm. Knowledge Representation and Ontologies, in M. Gaber. (eds.) Scientific Data Mining and Knowledge Discovery: Principles and Foundations, pp. 111-137. 2010.
Notas biográficas
Nuno Oliveira recebeu pela Universidade do Minho o grau de Licenciado em Ciências da Computação (2007) e de Mestre em Informática (2009). Com a sua tese (titulo traduzido do inglês): “Melhoria de Ferramentas de Compreensão de Programas para Linguagens de Domínio Específico”, orientado pelo Prof. Pedro Rangel Henriques, introduz na sua carreira académica a ligação entre programação e ontologias como meio de representar o conhecimento no domínio do problema (que o programa resolve).
Neste momento é membro do grupo HASLab/INESC TEC na Universidade do Minho, bolseiro FCT como doutorando, e assistente em aulas do Mestrado em Informática (vertente Engª. de Linguagens) também na Universidade do Minho.
Pedro Rangel Henriques licenciou-se na FEUP em Engenharia Electrotécnica, sendo Doutorado pela Universidade do Minho em Linguagens Formais e Gramáticas de Atributos, onde é docente/investigador desde 1981 e onde coordena o grupo de Processamento e Especificação de Linguagens (gEPL). Exerce actividades, primordialmente, em Processamento de Linguagens e, também, na área da Programação (paradigmas, algoritmos e linguagens).
É co-autor do livro “XML & XSL: da teoria à prática”, publicado em 2002 pela FCA.
No contexto da investigação aplicada a problemas reais, tem liderado inúmeros projectos de extensão universitária — prestação ao exterior de serviços de consultoria e desenvolvimento de sistemas de informação. Neste âmbito foi um dos responsáveis pelo Núcleo Português do Museu da Pessoa e, entre outros, pelos projectos de apoio à investigação em História: SEED, SIEP e SIME.