SEED
Sistema para o Estudo da Evolução Demográfica
PADRÃO
Um sistema de Descoberta de Conhecimento em Bases
de Dados Geo-referenciadas
Dissertação submetida à Universidade do Minho para obtenção do grau de doutor no Ramo Informática em 2001.
A Descoberta de Conhecimento em Bases de Dados está associada à identi…cação de relacionamentos implícitos existentes nos dados analisados. O processo global de descoberta de conhecimento, que se desenrola em várias fases, inclui a gestão dos algoritmos de Data Mining, utilizados para extrair padrões dos dados, e a interpretação dos padrões encontrados pelos mesmos. Um caso particular da Descoberta de Conhecimento em Bases de Dados diz respeito à exploração de dados geo-referenciados, isto é, dados que incluem referências a objectos geográ… cos, localizações ou partes de uma divisão territorial. A análise destes dados impõe a veri…cação da componente espacial associada aos mesmos (distâncias, direcções, adjacências, ...), e a sua in‡uência nos restantes dados explorados, já que um objecto geográ…co pode ser afectado por acontecimentos veri…cados em objectos vizinhos. Os algoritmos de Data Mining disponíveis em ferramentas de descoberta de conhecimento tradicionais, que permitem a exploração de dados armazenados em bases de dados relacionais, não estão preparados para a análise desta componente, motivando: i) o desenvolvimento de novos algoritmos; ii) a adaptação de algoritmos já existentes; iii) a utilização de sistemas gestores de bases de dados espaciais ou sistemas de informação geográ…ca, que permitam a incorporação da componente espacial dos dados no processo de descoberta de conhecimento. A existência nas bases de dados organizacionais de identi…cadores geográ…cos qualitativos, como moradas, os quais possibilitam a geo-referenciação da informação através de sistemas de posicionamento indirecto, conduziu à identi…cação de uma abordagem alternativa à análise de dados espaciais, utilizada neste trabalho, que permite a integração da componente espacial dos dados, no processo de descoberta de conhecimento, através da utilização de estratégias de raciocínio espacial qualitativo. Os princípios estabelecidos para o Padrão, o sistema proposto nesta tese, representam uma nova abordagem na análise de dados espaciais, que apresenta como vantagens: o facto de permitir utilizar uma diversidade de técnicas de Data Mining, já disponíveis para dados não espaciais; o suprimir a necessidade de caracterização geométrica das entidades geográficas referenciadas; e o permitir aos algoritmos de Data Mining analisar simultaneamente dados geoespaciais e dados não espaciais, não condicionando ou limitando os resultados que podem ser obtidos. A apresentação de um estudo de caso, com a análise de uma base de dados de grande dimensão, permitiu constatar a utilidade do sistema Padrão na exploração de bases de dados geo-referenciadas, nomeadamente, na identi…cação de relacionamentos implícitos existentes entre os dados geo-espaciais e os dados não espaciais analisados.
Knowledge Discovery in Databases is a process that aims the discovery of associations within data sets. Data Mining is the central step of this process. It corresponds to the application of algorithms for identifying patterns within data. Other steps are related to incorporating prior domain knowledge and interpretation of results. Geo-referenced data sets constitute a special case that demands a particular approach within the knowledge discovery process. Geo-referenced data sets include allusion to geographic objects, locations or administrative sub-divisions of a region. The geographic location and extension of those objects have implicit relationships of spatial neighbourhood. The Data Mining algorithms have to take this spatial neighbourhood into account when looking for associations among data. Data Mining algorithms available in traditional knowledge discovery tools, developed for the analysis of relational databases, are not prepared for the analysis of this spatial component. This situation led to: i) the development of new algorithms capable of dealing with spatial relationships; ii) the adaptation of existing algorithms in order to enable them no deal with those spatial relationships; iii) the integration of the capabilities for spatial analysis of spatial database management systems or geographic information systems with the tools normally used in the knowledge discovery process. Most of the geographic attributes normally found out in organisational databases (e.g., addresses) correspond to a type of spatial information that can be described using indirect positioning systems. This work proposes a new approach - the Padrão system - to the analysis of spatial data based on qualitative spatial reasoning strategies that allow the integration of the spatial component in the knowledge discovery process. The main advantages of this approach include: the use of already existing Data Mining algorithms applied to the analysis of non-spatial data; avoid the geometric characterisation of spatial objects; and enable that Data Mining algorithms deal with geo-spatial and non-spatial data simultaneously thus imposing no limits and constraints to the results achieved. The e¢cacy and usefulness of Padrão has been tested with a case study where a large database has been subject to a knowledge discovery process. The results con…rm that Padrão enables the identification of implicit relationships among geo-spatial and non-spatial data.
Knowledge Discovery in Databases is a process that aims the discovery of associations within data sets. Data Mining is the central step of this process. It corresponds to the application of algorithms for identifying patterns within data. Other steps are related to incorporating prior domain knowledge and interpretation of results. Geo-referenced data sets constitute a special case that demands a particular approach within the knowledge discovery process. Geo-referenced data sets include allusion to geographic objects, locations or administrative sub-divisions of a region. The geographic location and extension of those objects have implicit relationships of spatial neighbourhood. The Data Mining algorithms have to take this spatial neighbourhood into account when looking for associations among data. Data Mining algorithms available in traditional knowledge discovery tools, developed for the analysis of relational databases, are not prepared for the analysis of this spatial component. This situation led to: i) the development of new algorithms capable of dealing with spatial relationships; ii) the adaptation of existing algorithms in order to enable them no deal with those spatial relationships; iii) the integration of the capabilities for spatial analysis of spatial database management systems or geographic information systems with the tools normally used in the knowledge discovery process. Most of the geographic attributes normally found out in organisational databases (e.g., addresses) correspond to a type of spatial information that can be described using indirect positioning systems. This work proposes a new approach - the Padrão system - to the analysis of spatial data based on qualitative spatial reasoning strategies that allow the integration of the spatial component in the knowledge discovery process. The main advantages of this approach include: the use of already existing Data Mining algorithms applied to the analysis of non-spatial data; avoid the geometric characterisation of spatial objects; and enable that Data Mining algorithms deal with geo-spatial and non-spatial data simultaneously thus imposing no limits and constraints to the results achieved. The e¢cacy and usefulness of Padrão has been tested with a case study where a large database has been subject to a knowledge discovery process. The results con…rm that Padrão enables the identification of implicit relationships among geo-spatial and non-spatial data.
Maribel Yasmina Santos
Ler Mais
Fechar
PDF
Arquitectura Heterogénea para Extracção de Conhecimento
a partir de Dados
Dissertação submetida à Universidade do Minho para obtenção do grau de doutor no Ramo Informática, Área tecnologia da Programação em Dezembro de 2000.
A análise de grandes volumes de dados com o objectivo de descobrir automaticamente conhecimento continua ainda a ser um problema de difícil resolução e do interesse das mais diversas áreas, incluíndo Inteligência Artificial, Estatística, Armazéns de Dados, Processamento Analítico de Dados e Visualização dos Dados.
Apesar dos esforços que se têm vindo a desenvolver para tornar esta área mais acessível aos utilizadores, isto ainda não foi conseguido. Daí o objectivo principal desta comunicação consistir na apresentação de uma arquitectura facilitadora do processo de extracção de conhecimento a partir de dados incertos, recolhidos em ambientes adversos à sua qualidade. A inovação desta arquitectura consiste na combinação de múltiplas tecnologias que se adicionam ao processo clássico de DCBD, com o objectivo de o tornar mais completo, fiável e acessível aos utilizadores.
Uma arquitectura multi-níveis é vantajosa porque para além de cada um dos seus módulos apresentarem funções bem definidas e delimitadas, a sua modulariedade torna a arquitectura mais genérica e aplicável a qualquer área de negócio, pois consoante as particulariedades de cada área os módulos podem ser mais ou menos adaptados de acordo com as exigências da área em estudo. A solução desenvolvida apresenta cinco níveis tratáveis separadamente com requisitos bem definidos:
1- aquisição de dados
2 -armazenamento de dados
3 - análise de dados
4 -memória corporativa
5 - verificação e validação do conhecimento extraído
Apesar dos esforços que se têm vindo a desenvolver para tornar esta área mais acessível aos utilizadores, isto ainda não foi conseguido. Daí o objectivo principal desta comunicação consistir na apresentação de uma arquitectura facilitadora do processo de extracção de conhecimento a partir de dados incertos, recolhidos em ambientes adversos à sua qualidade. A inovação desta arquitectura consiste na combinação de múltiplas tecnologias que se adicionam ao processo clássico de DCBD, com o objectivo de o tornar mais completo, fiável e acessível aos utilizadores.
Uma arquitectura multi-níveis é vantajosa porque para além de cada um dos seus módulos apresentarem funções bem definidas e delimitadas, a sua modulariedade torna a arquitectura mais genérica e aplicável a qualquer área de negócio, pois consoante as particulariedades de cada área os módulos podem ser mais ou menos adaptados de acordo com as exigências da área em estudo. A solução desenvolvida apresenta cinco níveis tratáveis separadamente com requisitos bem definidos:
1- aquisição de dados
2 -armazenamento de dados
3 - análise de dados
4 -memória corporativa
5 - verificação e validação do conhecimento extraído
Fátima Rodrigues
Ler Mais
Fechar