20 Glossário

Este glossário de termos comuns em classificação e ordenação foi desenvolvido a partir de Pielou (2010) e Pielou (1984).

Aglomeração - O processo pelo qual objetos individuais são acumulados em um único grupo contendo todos os objetos. O mesmo que clustering.
Algoritmo - A descrição concisa de um método para a solução de um problema específico que muitas vezes facilita a tradução em um programa de computador.
Alfanumérico - Referindo-se a caracteres, incluindo o alfabeto, os dígitos de 0 a 9 e os símbolos comuns em um teclado.
Efeito de arco - O padrão curvo de distribuição de objetos em ordenações quando os dados foram obtidos a partir de unidades de amostragem variaram ao longo um gradiente unidimensional.
Associação - Um termo geral usado para cobrir todas as medidas ou coeficientes de similaridade, dissimilaridade, diferença, distância, proximidade, semelhança ou afinidade entre dois objetos.
Assimétrico - Normalmente em relação a uma matriz de valores de associação, onde os valores do triângulo inferior esquerdo da matriz não são um espelho imagem do triângulo superior direito. Veja SIMÉTRICO.
Atributos - As variáveis usadas para descrever o conjunto de objetos nos dados. Eles geralmente formam as colunas da matriz de dados, mas pode formar as linhas se uma análise de atributos for necessária.
Distância - média entre 2 clusters A média aritmética de todas as distâncias entre cada um e cada ponto em um cluster e cada ponto no outro.
Ligação média agrupamento - Termo coletivo para todos os métodos de agrupamento em que a distância entre dois clusters depende da localização de todos os pontos em ambos os clusters. Compare o agrupamento do vizinho mais próximo com o agrupamento do vizinho mais distante.
Binário - Um termo usado como sinônimo de dados de presença / ausência. O termo ‘presença / ausência’ é preferível, ou mais simplesmente ‘presença’.
Dados binários - Dados de nível nominal que representam apenas dois estados.
Dados centrados - Dados em que as observações são expressas como desvios de seu valor médio de atributo. Portanto, o atributo soma é zero.
Centroide - A posição média de um cluster de pontos em um espaço de qualquer número de dimensões, ou seja, a média multivariada.
Agrupamento centroide - Uma técnica de agrupamento em que a distância (ou dissimilaridade) entre dois clusters é igual à distância (ou dissimilaridade) entre seus centroides.
Distância do centroide - Consulte o critério de agrupamento de ligação média.
Encadeamento - Em um processo de agrupamento, a tendência de um agrupamento crescer a adição repetida, um de cada vez, de pontos únicos.
Valores característicos ou raízes - Igual aos eigenvalores.
Vetor característico - Igual ao eigenvetor.
Distância da Corda - A mais curta (linha reta) entre dois pontos no mesmo círculo, esfera ou hiperesfera.
Distância do quarteirão da cidade - A distância entre dois pontos, em um quadro de coordenadas de qualquer número de dimensões, medido como a soma dos segmentos paralelo com os eixos.
Cluster - Um agrupamento natural ou artificial de objetos com alguns implícitos ou afinidade assumida.
Clustering - O processo de classificação de objetos combinando objetos semelhantes para formar turmas pequenas, combinando turmas pequenas em turmas maiores aulas e assim por diante. Igual à classificação aglomerativa. Classificação divisiva de contraste.
Vetor coluna - Uma matriz com apenas uma coluna.
Combinatorial método de agrupamento - Aqueles em que cada matriz de distância sucessiva pode ser construída a partir da matriz de distância anterior; os dados brutos são necessários apenas para construir a matriz de distância inicial entre objetos.
Ligação completa agrupamento - O mesmo que o agrupamento de vizinhos mais distantes.
Dendrograma - Uma representação diagramática da história das sucessivas fusões binárias (dois objetos ou grupos formando um único grupo) ou dicotomizações (um grupo dividido em dois componentes). Representado como uma estrutura semelhante a uma árvore com uma única raiz representando o conjunto completo de objetos com ramos representando objetos ou um grupo de objetos.
Dicotomização - A divisão de um grupo em dois grupos.
Dimensão - Um eixo de referência em um espaço multidimensional inicialmente correspondendo a cada um dos atributos em um conjunto de dados, mas aplicando-se igualmente a um conjunto de eixos derivados da ordenação métodos.
Matriz de distância - Uma matriz quadrada, geralmente simétrica, mostrando a distância de cada objeto para todos os outros objetos.
Divisivo - O processo de dividir um grupo em subgrupos sucessivos. Oposto ao aglomerativo.
Classificação Divisiva - O processo de classificação de objetos dividindo primeiro o conjunto de objetos em classes, em seguida, redividindo alguns ou todos esses classes em subclasses e assim por diante. Clustering de contraste.
Autoanálise - O processo de encontrar os pares autovalor-autovetor de uma matriz quadrada A. Os valores próprios são os elementos da matriz diagonal A e os vetores próprios são as linhas de U (equivalentemente, as colunas de U ‘) onde A = U’AU.
Eigenvalue vector próprio par de uma matriz A - Respectivamente, um número escalar alfa e um vetor linha u’ relacionado pela equação u’A = alfa’. Se A é uma matriz n x n, existem n desses pares.
Elemento de uma matriz - Um dos números individuais que compõem uma matriz. O elemento (i, j) é o número na iésima linha e na jésima coluna da matriz.
Distância euclidiana - Distância em linha reta entre dois pontos no comum sentido em uma, duas ou três dimensões, ou o conceito análogo de tal distância em espaços de mais de três dimensões.
Extrínseco - Referindo-se a um atributo que não foi usado em uma parte específica da análise, mas estava disponível no conjunto de dados total.

Vizinho mais distante agrupamento Agrupamento em que a distância (dissimilaridade) entre dois clusters é considerada a maior distância entre um par de pontos com um membro do par em cada cluster. Contraste agrupamento de vizinhos mais próximos. Fusão A união ou amálgama de dois objetos ou grupos de objetos. Média do grupo métodos de agrupamento Métodos de agrupamento que usam o método não ponderado ou ponderado distância média como medidas da dissimilaridade de um par de clusters. Heurística Uma regra prática que é frequentemente usada repetidamente para progredir de alguma configuração inicial para um objetivo. Hierárquico classificação Uma classificação em que as classes são classificadas. Cada indivíduo pertence a uma classe, e cada classe a uma classe de classificação superior, até a classe mais alta que é a totalidade de todas indivíduos. Hierarquia Uma estrutura que mostra o agrupamento aninhado; onde um grupo em qualquer nível intermediário da estrutura é parte de um grupo em um nível superior e autor de outros grupos em um nível inferior nível. Intervalo O terceiro dos quatro tipos de escala usados para descrever a codificação de atributos onde o intervalo entre os valores na escala são significativo. Intrínseco Referindo-se a um atributo que foi usado em uma análise. Iteração Uma sequência lógica repetitiva de operações. Valores latentes ou raízes Igual aos valores próprios. Vetor latente O mesmo eigenvetor. Dados lineares Um enxame de dados é (aproximadamente) linear se sua projeção em qualquer espaço bidimensional, embora orientado, dá um enxame bidimensional cujo eixo longo é (aproximadamente) um linha reta. Se qualquer projeção produz um enxame (projetado) com um eixo curvo, então os dados não são lineares. Métrica de Manhattan O mesmo que a distância do quarteirão. Matriz Um arranjo lógico e consistente de valores de dados onde a posição dos valores implica informações adicionais. Matrix Uma matriz dimensional de números de um para muitos. O significado de cada número (ou elemento) depende de sua posição no matriz. Multiplicação de matrizes A formação do produto AB de duas matrizes A e B. Agrupamento mediano método Um método de agrupamento que usa a distância média entre clusters como uma medida de dissimilaridade. Distância mediana Consulte o critério de agrupamento de ligação média. Merísticos Valores inteiros ou inteiros, como contagens. Valores merísticos podem assumir valores de 0 a infinito. Métrica Uma classe de medidas de associação que estão em conformidade com o seguinte as regras: 1.A distância entre um objeto e ele mesmo é sempre zero. 2. A diferença entre dois objetos é a mesma, independentemente do ponto de vista. 3. Dados três pontos formando um triângulo de distâncias, e o comprimento de qualquer lado é menor do que a soma dos dois restantes. Medidas métricas de dissimilaridade Medidas que, como a distância, satisfazem a desigualdade do triângulo axioma. Extensão mínima árvore A árvore de abrangência mais curta que pode ser construída em um determinado conjunto de objetos. Extensão mínima árvore Um conjunto de segmentos de linha de comprimento mínimo unindo todos os pontos em um enxame de pontos para que cada par de pontos seja ligado por apenas um caminho (ou seja, não há loops). Variância mínima agrupamento Clustering em que os dois clusters unidos em cada etapa são aqueles cuja fusão traz o menor aumento possível na dispersão dentro do cluster. Mínimo-Spanning Árvore Um algoritmo de rede que é especificado formando um completo ligação (juntando todos os objetos) onde o comprimento total do conexões são mínimas e onde não ocorrem loops ou circuitos. Monotético O uso de um único atributo para aglomerar ou dividir um grupo. Oposto ao POLITÉTICO. Monotônico Uma série de valores que mostram um aumento ou diminuição consistente. Normalmente, os valores vinculados são permitidos. Agrupamento monotônico estratégia Uma estratégia de fusão em que a ocorrência de reversões é impossível porque as distâncias de fusão aumentam monotonicamente com nível de fusão. Vizinho mais próximo agrupamento Agrupamento em que a distância (dissimilaridade) entre dois clusters é considerada a distância mais curta entre um par de pontos com um membro do par em cada cluster. Contraste agrupamento de vizinhos mais distantes. Rede Um conjunto específico de conexões entre objetos. Nós e entrenós As partes de um dendrograma. Os nós são as linhas horizontais ligando classes de igual categoria. Os entrenós são verticais linhas ligando cada classe às classes acima e abaixo dela em classificação. Nominal O mais baixo (em termos de qualidade) das quatro escalas usadas para codificar atributos e onde os valores são limitados para incorporar o conceito de ‘diferença’ e ‘identidade’. Dados normalizados As coordenadas de um ponto de dados ou os elementos de um vetor reescalonado de modo que seus quadrados somam a unidade. Objeto A unidade básica (indivíduo, entidade etc.) a ser analisada. Para conveniência, os objetos geralmente formam as linhas da matriz de dados enquanto os atributos formam as colunas, embora isso seja intercambiáveis, assim como a sua visão de quais são os objetos e quais os atributos. Ordinal O segundo em ordem na escala de codificação de atributos onde valores diferentes na escala podem ser considerados ‘maiores que ’ou’ menos que ’. Ordenação O termo geral que abrange todas as técnicas que tentam condensar informações associadas ao conjunto de atributos para um número limitado de novos atributos. Espaço de ordenação particionamento A colocação de divisões em uma ordenação, a fim de separar os objetos em classes. O método é uma abordagem para classificação divisiva. Politética O processo onde muitos atributos contribuem em cada etapa para a divisão ou fusão de grupos. Eixos principais Os novos eixos de coordenadas para um conjunto de objetos, obtidos por fazer uma análise dos componentes principais dos dados. Cada eixo representa um componente principal dos dados. Principal componente escore O valor de um componente principal para um ponto individual. Daí a coordenada do ponto no correspondente Eixo principal. Diretor componentes Novas variáveis derivadas por uma análise de componente principal para descrever um corpo de dados. Cada um é uma soma ponderada do valor “bruto” (conforme medido originalmente) variáveis, ou do centrado e / ou variáveis padronizadas. Perfil Um tipo de atributo em que um único valor é substituído por um conjunto de valores com alguma dependência de ordem. Por exemplo, a temperatura pode ser um único atributo ou um conjunto de variáveis ambientais ou expandidas para um perfil, se mensalmente temperaturas estavam disponíveis. Ordenação do tipo Q Uma ordenação de atributos, geralmente espécies. Ordenação do tipo R Uma ordenação de unidades de amostragem. Proporção A escala mais alta de codificação de atributo onde a proporção do diferença entre os valores é significativa. Reversão (em agrupamento) Uma reversão ocorre quando uma fusão feita posteriormente em um agrupamento processo une clusters que estão mais próximos do que os clusters unidos em uma fusão anterior. SAHN Acrônimo de Sneath e Sokal (1984) para ’Sequential, Agglomerative, Métodos hierárquicos e não sobrepostos. Estes formam a maioria dos tipos comumente usados de análises de agrupamento. Unidade de amostragem Um gráfico individual ou quadrat. Uma coleção de muitas dessas unidades, cada um dos quais é um pequeno fragmento diferente da comunidade em estudo, constitui a amostra. As unidades de amostragem são comumente e confusamente chamados de samples. Ligação única agrupamento Igual ao agrupamento de vizinhos mais próximos. Dados padronizados Dados que foram redimensionados dividindo cada observação por uma estatística de linha ou coluna, como o desvio padrão. Regra de parada Uma regra para decidir quando uma classificação divisiva deve parar. Simétrico Conforme aplicado a matrizes, uma situação em que o triângulo inferior esquerdo de valores é uma imagem espelhada dos valores superiores à direita. Transformação Uma operação matemática aplicada a cada valor de dados. Podem incluir ponderação (por exemplo, registro, centralização e padronização). Diagrama de árvore Igual ao dendrograma. Distância ultramétrica medidas Aqueles que não podem, em nenhuma circunstância, causar uma reversão em um processo de agrupamento. UPGMA Acrônimo para a estratégia de fusão baseada em grupo não ponderado distâncias médias; aparentemente do grupo de pares não ponderados Método usando médias. Vector Uma linha ou coluna de uma matriz de dados forma as coordenadas do ponto final de um vetor no espaço multidimensional.

Bibliografia

Choi, Seung-Seok, Sung-Hyuk Cha, and Charles C. Tappert. 2010. “A Survey of Binary Similarity and Distance Measures.” Journal Article. Systemics, Cybernetics and Informatics 8 (1): 43–48.
———. 1984. The Lnterpretation of Ecological Data. A Primer on Classification and Ordination. Book. New York, NY: John Wiley & Sons.