Psicometria e clinimetria
Margarida Pocinho
LIÇÕES DE PSICOMETRIA:
2014
Margarida Pocinho
Página i
Psicometria e clinimetria
Índice
Psicometria ............................................................................................................... 4 Directrizes Internacionais para a Utilização de Testes ........................................................6 Conceber o instrumento de observação .......................................................................... 10 Planificação e construção de um questionário/ teste ....................................................... 10 Construção e padronização de instrumentos de medida .................................................. 11 A administração ................................................................................................................................. 15 Testar o instrumento de observação ................................................................................................. 17 Estudo Piloto ...................................................................................................................................... 45 Estratégias estatisticas de análise de dados ...................................................................................... 45
ANEXOS: ..........................................................................................................................6 INTERNATIONAL TEST COMMISSION ................................................................................................... 7
GUIÃO DE ARTIGO DE REVISÃO DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA GUIÃO DE APRESENTAÇÃO DAS DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA
Margarida Pocinho
Página ii
Psicometria e clinimetria
Quadro 1: grelha de decisão dos testes ............................................................................ 48 Quadro 2: grelha de decisão dos testes psicométricos ..................................................... 50
Figura 1: Opções de Medida............................................................................................ 11 Figura 2: construção de um questionário de raiz ............................................................. 12 Figura 3: etapas da construção de uma escala ................................................................. 13 Figura 4: adaptação de um questionário ao contexto cultural ......................................... 14 Figura 5: o processo de adaptação cultural ...................................................................... 14 Figura 6: identificar os testes estatisticos ........................................................................ 46
Margarida Pocinho
Página iii
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
PSICOMETRIA
Em termos etimológicos, Psicometria provém do grego psyké, que significa alma, e metron, que significa medida ou medição, e é uma área da Psicologia que faz a ponte entre a Estatística e a Psicologia. Sua definição consite no conjunto de técnicas utilizadas para mensurar, de forma adequada e comprovada experimentalmente, um conjunto ou uma gama de comportamentos que se deseja conhecer melhor. O Psicólogo psicometrista possui, no seu ambito de actuação e formação, características que lhe permitem manusear os testes psicológicos de acordo com alguns critérios básicos. Estes são: Validade, Fidedignidade e Padronização. Qualquer teste que se preste à validação e, posteriormente ao uso, deve ser fruto de pesquisas nessa área. A evolução da pesquisa científica baseada no cálculo em Psicologia é pouco incerto em sentido estrito, porém sabe-se que (sir) Francis Galton foi o fundador do primeiro laboratório voltado às medições antropométricas1, em Londres, no ano de 1884. "Ele entendia que a discriminação sensorial era a base do desempenho intelectual, e que medidas adequadas, neste sentido, seriam capazes de indicar diferenças entre os mais e os menos capazes (Anastasi, Psychological testing, 1988). Hermann Ebbinghaus, no ano de 1885, começa os primeiros estudos experimentais sobre a memória. Com base nas suas experiencias, Ebbinghaus formulou coeficientes sobre como se dá a aquisição de memória a partir de um conjunto de letras ordenadas de forma não-lógica. Se a realização de experimentos deu à psicologia o seu status de ciência, a inserção profissional ocorreu através da avaliação psicológica. O exemplo mais emblemático, neste sentido, é a contribuição de Ebbinghaus que serviu de modelo para construção de itens em avaliação psicológica. Contudo, a teoria que iria fundamentar a prática de avaliação psicológica estava já sendo delineada na Inglaterra sob influência da teoria da evolução de Charles Darwin, atravéz de Galton, primo de Darwin.
1
A antropometria trata das medidas físicas do corpo humano
Margarida Pocinho
Página 4
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
No Reino Unido, Galton conheceu James McKeen Cattell (1860-1944) e, juntos, formularam, pela primeira vez, provas que consistiam em medidas de discriminação sensorial, de tempo e de reacção. Em sentido diferente e por diversas críticas que estes possuiam dos testes anteriores de inteligência, o francês "Alfred Binet (1857-1911) e seu parceiro Théodore Simon desenvolveram, a pedido da comissão francesa para a investigação dos interesses da educação, o primeiro teste de inteligência para diferenciar crianças retardadas e crianças normais em seus mais variados graus" (Passarelli, 1995). Esta escala de classificação tem sua data de origem em 1905 e, desde então, sofreu diversas modificações na sua origem e no seu nome. Actualmente, apesar das variações e versões (Long ou short), ele é conhecido como Teste Stanford-Binet de Inteligência. A psicometria é uma metodologia Quantitativa que por sua vez é conjunto de métodos que apela para procedimentos matemáticos, mesmo no estudo dos fenómenos sociais e humanos, cujo objectivo primordial é a medição de tais fenómenos. É um processo de inquirição para a compreensão de um problema, enquadrado por uma teoria composta de variáveis medidas com números e analisada através de procedimentos estatísticos, tendo em vista determinar se para um dado nível de probabilidade, podem os dados serem generalizados. Estes métodos pressupõem a quantificação de dados através de estatísticas padronizadas e a interpretação de dados, segundo a técnica estatística, que, por sua vez, pressupõe a colheita de dados (amostragem), a verificação dos dados (validade) e a interpretação dos dados (correlação, associação, diferenças, aderências, etc.). “A PSICOMETRIA (Medidas em Psicologia) é um ramo da Psicologia que se utiliza dos conhecimentos da Estatística para a mensuração dos fenómenos psicológicos (construtos) de um indivíduo ou grupos, suas habilidades, aptidões, atitudes, conhecimentos,
inteligência
ou
traços
de
personalidade.
É
uma
disciplina
iminentemente técnica, com seus próprios fundamentos teóricos. Sua principal aplicabilidade é na testagem e na avaliação psicológica” (LAP- Laboratório de Avaliação Psicológica, 2007, p. 1).
Margarida Pocinho
Página 5
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
DIRECTRIZES INTERNACIONAIS PARA A UTILIZAÇÃO DE TESTES
Em 1992, a International Test Comission (ITC) iniciou um projecto para preparar orientações para a tradução e adaptação de testes e instrumentos psicológicos. Várias organizações ajudaram o ITC na preparação daquelas directrizes: European Association of Psychological Assessment, European Test Publishers Group, International Association for Cross-Cultural Psychology, International Association of Applied Psychology, International Association for the Evaluation of Educational Achievement, International Language Testing Association and International Union of Psychological Science. . Uma comissão de 12 representantes destas organizações trabalharam durante vários anos para preparar 22 orientações e, posteriormente, essas directrizes foram testadas em campo (ITC-International Test Commission, 2008). Em 1999 o Conselho da International Test Commission (ITC) dos Estados Unidos e a Task Force on Tests and Testing da European Federation of Professional Psychologists Associations (EFPPA) adoptaram um conjunto de Directrizes, oficialmente publicadas por ocasião da Assembleia Geral da ITC, em 24 de Julho de 2000, em Estocolmo (ver anexo). As directrizes, foram organizadas em quatro categorias: 1. Contexto a. Os efeitos das diferenças culturais que não são relevantes para os objectivos do estudo devem ser minimizados b. A duplicação de construtos a medir nas populações de interesse deve ser avaliada. 2. Construção, desenvolvimento e Adaptação a. Os autores do Teste/ editores devem garantir que o processo de Construção, Desenvolvimento e Adaptação tem em conta as diferenças linguísticas e culturais entre as populações para as quais os instrumentos adaptados ou as versões se destinam b. Os autores do Teste/ editores deverão fornecer provas de que a linguagem de todas as instruções, as rubricas e itens, bem como o manual
Margarida Pocinho
Página 6
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
são adequadas para todas as culturas e populações para os quais o teste ou instrumento se destina. c. Os autores do Teste/ editores devem apresentar provas de que a escolha das técnicas de testagem, formatos dos itens, protocolos e procedimentos são familiares a todas as populações se destina. d. Os autores do Teste/ editores deverão fornecer provas de que o conteúdo dos itens e materiais orientadores são familiares a todas as populações se destina. e. Os autores do Teste/ editores devem implementar uma avaliação sistemática, tanto linguística como psicológica, para melhorar a precisão do processo de adaptação e compilar evidências acerca da equivalência linguistica. f. Os autores do Teste/ editores devem garantir que o projecto de recolha de dados permite o uso de técnicas estatísticas adequadas para estabelecer equivalência entre os itens das diferentes versões linguísticas do teste ou instrumento. g. Os autores do Teste/ editores devem aplicar técnicas estatísticas adequadas (1) estabelecer a equivalência entre as diferentes versões do teste ou instrumento, e (2) identificar as componentes ou aspectos problemáticos do instrumento que podem ser inadequados para uma ou mais das populações a que se destinam h. Os autores do Teste/ editores devem fornecer informações sobre a avaliação da validade em todas as populações-alvo para quem a versões adaptadas são destinados. i. Os autores do Teste/ editores devem fornecer dados estatísticos da equivalência das questões para todas as populações a que se destina. j. Questões não equivalentes entre as versões destinadas a diferentes populações, não devem ser usadas na preparação de uma escala comum ou para comparar essas populações. No entanto, elas podem ser úteis no aumento da validade de conteúdo reportado a cada população.
3. Administração a. Os autores do Teste e administradores devem tentar antecipar os tipos de problemas que podem ser esperados, e tomar as medidas apropriadas Margarida Pocinho
Página 7
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
para corrigir esses problemas através da preparação de materiais e instruções adequadas. b. Os administradores dos testes devem ser sensíveis a uma série de factores relacionados à compreensão dos materiais, procedimentos administrativos, e os modos de resposta que podem influenciar a validade das inferências que se podem retirar dos scores c. Os factores ambientais que podem influenciar os resultados de um teste ou instrumento dvem ser semelhantes entre as populações para que as diferenças não sejam atribuídas a esses factores d. Instruções para administração do teste devem estar nos idiomas de origem e de destino para minimizar a influência de fontes indesejáveis de variação entre as populações. e. O manual do teste deve especificar todos os aspectos da administração que exigem uma análise do novo contexto cultural. f. O administrador deve ser discreto e a sua interação com o examinado deve ser minimizada. As regras explícitas que são descritas no manual de administração devem ser seguidas
4. Documentação / Intrepretação dos Scores a. Quando um teste ou instrumento é adaptado para uso noutra população, a documentação das mudanças devem ser fornecidos, junto com a prova da equivalência. b. As diferenças de pontuação entre as amostras a quem foi administrado o teste ou instrumento não devem ser tomada pelo valor absoluto dos scores. O pesquisador tem a responsabilidade de justificar as diferenças com outras evidências empíricas. c. As comparações entre as populações só podem ser feitas ao nível da invariância que foi estabelecida para as pontuações da escala. d. O autor do teste deve fornecer informações específicas sobre a forma em que os contextos socioculturais e ecológicos das populações podem afectar o desempenho, e deve sugerir procedimentos para explicar esses efeitos na interpretação dos resultados.
Margarida Pocinho
Página 8
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
Estas diretrizes tornaram-se um quadro de referência para muitos psicólogos que trabalham na área da tradução e adaptação dos testes. A Comissão para a Adaptação Portuguesa das Directrizes Internacionais para a Utilização de Testes agrupou colaboradores da Faculdade de Psicologia e de Ciências da Educação/Universidade do Porto, do CEGOC-TEA, Departamento de Educação e Psicologia/Universidade do Minho, da Faculdade de Psicologia e de Ciências da Educação/Universidade de Lisboa, da Faculdade de Psicologia e de Ciências da Educação/Universidade
de
Coimbra
e
do
Instituto
Superior
de
Psicologia
Aplicada/Lisboa e produziram um manual que foi editado pela CEGOC-TEA, com autorização da Comissão para a Adaptação Portuguesa das Directrizes Internacionais para a Utilização de Testes, mas como a sua venda é proibida. Se tiver necessidade de consultar o documento contacte António Menezes Rocha, Director Associado do CEGOC-TEA através do e-mail:
[email protected]. O original das directizes pode ser consultado no anexo 3. É hoje comum que estudantes académicos, profissionais de saúde, profissionais da área social e outros adultos, crianças ou idosos consultem um psicólogo para que este o avalie,
sobretudo
se
existem
dificuldades,
ou
se
de
algum
modo
as
atitudes/comportamentos se afastam um pouco da normalidade. Em regra, o psicólogo começa por ouvir quem o procura ou aqueles que sabem ou podem fornecer dados necessários à construção de uma história clínica. Assim, no inicio são recolhidas informações (desenvolvimento físico e emocional) que dão sentido a todos os resultados que se obtêm posteriormente na avaliação psicométrica. Não se pode avaliar ninguém, sem enquadrar devidamente essa avaliação na história pessoal do sujeito avaliado. Além disso, quaisquer interpretações de testes requerem uma longa preparação teórica, que só um psicólogo tem acesso. Em Portugal, para além das directrizes supra citadas, ainda não existem regras que regulem a utilização dos testes psicométricos. Existem, de facto, testes psicométricos que todos conhecem e que por vezes efectuam, até por brincadeira. São testes que permitem avaliar, factores quer da personalidade, quer da inteligência, mas que não devem ser analisados fora do contexto da sua utilização: académico, clínico, social, organizacional, etc..
Margarida Pocinho
Página 9
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
CHEGOU A VEZ DE APLICAR AS NOÇÕES ESTUDADAS, NESTA ETAPA, AO SEU PRÓPRIO TRABALHO. COMECE POR PESQUISAR ESCALAS DE MEDIDA PARA PODER APLICAR E DAR INICIO A UM TRABALHO DE PSICOMETRIA QUE ORIGINARÁ UM ARTIGO CIENTIFICO SOBRE ESSA TEMÁTICA.
CONCEBER O INSTRUMENTO DE OBSERVAÇÃO
A primeira operação da fase de observação consiste em conceber um instrumento capaz de produzir todas as informações adequadas e necessárias para testar as hipóteses. Este instrumento será frequentemente, mas não obrigatoriamente, um Exame de diagnóstico, uma escala, um questionário ou um guião de entrevista. Alguns deles requerem, por vezes, um pré-inquérito como complemento da fase exploratória.
PLANIFICAÇÃO E CONSTRUÇÃO DE UM QUESTIONÁRIO/ TESTE Para se compreender qualquer actividade humana complexa é necessário dominar a linguagem e o tipo de abordagem que lhe é feita pelos tipos que a realizam. O mesmo acontece quando se trata de compreender a investigação científica. É necessário que se compreenda, pelo menos em parte, a linguagem científica e os métodos a que a ciência recorre para resolver os problemas. A planificação e construção de um teste é de interesse neste ponto porque, possibilitanos um modo de obter informações, as pessoas reagem a uma quantidade de estímulos estruturados, isto acontece essencialmente na pesquisa comportamental. Um teste é um procedimento sistemático em que se apresenta, aos indivíduos, um conjunto de itens que medem um atributo. Estas pesquisas possibilitam ao investigador atribuir scores individuais, que presumivelmente indicam o grau em que os indivíduos possuem o atributo que está a ser medido. A construção de um teste vai da validação, fidedignidade, aferição até à padronização. Quando construímos um questionário temos de ter atenção às normas a ter em conta na
Margarida Pocinho
Página 10
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
sua construção, à selecção dos itens, à administração padronizada, aos obstáculos que se nos colocam bem como a forma mais eficiente de construção e administração.
Por isso, o primeiro passo é decidir o que queremos e como queremos medir, não perdendo de vista a qualidade da medida (fig.1)
FIGURA 1: OPÇÕES DE MEDIDA
CONSTRUÇÃO E PADRONIZAÇÃO DE INSTRUMENTOS DE MEDIDA Questionário é uma ferramenta desenhada para obter e documentar exposições, ou para guiar a obtenção e a documentação de exposições, a serem lembradas pelos sujeitos de um estudo epidemiológico (Pocinho, 2007; White, Armstrong, & Saracci, 1992). Há duas técnicas predominantes para o desenvolvimento de escalas multi-itens de medidas de saúde: a clinimétrica e a psicométrica. A primeira, usada na prática clínica, assenta no julgamento de pacientes, médicos e outros profissionais a respeito de fenómenos clínicos, que abrangem várias características ou atributos dos pacientes, não relacionados entre si. A estratégia psicométrica, usada em psicologia e em testes de inteligência, sustenta-se em técnicas estatísticas e tem como objectivo (não exclusivo) desenvolver uma escala (ou escalas múltiplas) que meça características ou atributos
Margarida Pocinho
Página 11
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
únicos do indivíduo (Pocinho, 2007; Marx, Bombardier, Hogg-Johnson, & Wright, 1999; Wright & Feinstein, 1992) O desenvolvimento da escala, para ambas as estratégias, é feito em dois estágios: a construção e a redução de itens, sendo que a diferença se opera no último estágio. A construção de itens, semelhante para as duas, define o conteúdo do instrumento e assegura que todas as variáveis importantes sejam consideradas para inclusão na escala. A partir da base conceptual do que se deseja medir, chega-se aos diferentes domínios ou dimensões que explicam o fenómeno; define-se o conteúdo da escala e garante-se que todos os tópicos importantes sejam incluídos. Os itens são provenientes de múltiplas fontes: julgamento clínico/individual do profissional, pesquisas anteriores, opiniões de pacientes, consenso de especialistas ou modelos estatísticos. O conteúdo da escala é a primeira etapa, e os itens individuais são seleccionados tendo em vista medir os atributos que podem explicar o fenómeno. No final, o conjunto dos itens deve ser ajuizado para se verificar se existe uma representação adequada de todos os aspectos pertinentes do fenómeno em estudo (fig. 2)
Construção
CLINIMETRIA
PSICOMETRIA
TÉCNICAS ESTATISTICAS
JULGAMENTO DE PACIENTES, MÉDICOS E OUTROS PROFISSIONAIS A RESPEITO DOS FENÓMENOS CLINICOS
FIGURA 2: CONSTRUÇÃO DE UM QUESTIONÁRIO DE RAIZ
A redução de itens elimina itens redundantes ou inapropriados, diminuindo o número a um total que seja praticável de administrar, assegurando, ao mesmo tempo, que a escala meça o constructo ou o fenómeno clínico de interesse. A forma de se proceder à redução é diferente em cada estratégia (fig. 3).
Margarida Pocinho
Página 12
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
FIGURA 3: ETAPAS DA CONSTRUÇÃO DE UMA ESCALA
Na clinimétrica, as avaliações dos pacientes determinam quais os itens que deverão ser incluídos na escala final; após hierarquização dos itens segundo o seu impacto, serão incluídos na escala final os itens mais importantes e de maior frequência ou severidade, conforme avaliado pelos pacientes, respeitando-se a multidimensionalidade do constructo. Todas as dimensões que ajudam a explicar o constructo (ou o fenómeno clínico que se quer medir) devem estar representadas na escala final. Na psicométrica, são usadas várias técnicas estatísticas para reduzir o número de itens e distribuí-los em dimensões: matriz de correlações, Alpha de Cronbach, Análise Factorial e outras (Pocinho, 2007). O desenvolvimento da mensuração é fruto de uma transformação e evolução global ao longo de vários séculos. Concorrem nesse desenvolvimento as transformações que foram ocorrendo nas próprias sociedades, o desenvolvimento das ciências, as sucessivas mudanças sociais, culturais e económicas e por último na própria forma de ver o Homem ao longo deste últimos vinte séculos. Se optarmos por adaptarmos um instrumento em vez de construirmos de raiz, então o processo de validação tem outros trâmites (fig. 4).
Margarida Pocinho
Página 13
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
Adaptação transcultural
TRADUÇÃO E ADAPTAÇÃO AO NOVO IDIOMA
ADAPTAÇÃO AO NOVO CONTEXTO CULTURAL
JURI BILINGUE
JULGAMENTO MULTIDISCIPLINAR
FIGURA 4: ADAPTAÇÃO DE UM QUESTIONÁRIO AO CONTEXTO CULTURAL
Em vez da construção dos itens e respectiva preocupação com o conteúdo e as fontes que os produzirão, precede-se à tradução e adaptação quer à língua, quer a todo o contexto cultural que envolve a medida e que podemos sintetizar o processo de adaptação cultural da seguinte forma (fig 5).
FIGURA 5: O PROCESSO DE ADAPTAÇÃO CULTURAL
Como já referimos, a construção de um teste pressupõe regras claras, sem ambiguidades, condição essencial para se obter um bom instrumento de medida. Isto exige-nos uma atenção redobrada, medir torna-se pois num aspecto essencial dos testes mas é necessário que não se confundam, nem se misturem atributos. Torna-se
Margarida Pocinho
Página 14
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
imprescindível que cada medida meça apenas um atributo. A definição dessas regras é o que se chama de padronização Uma das componentes das escalas é o facto de serem constituídas por um grande número de itens. Com efeito inicialmente há necessidade de uma grande pool de itens para depois se proceder à sua redução, que é por vezes três a quatro vezes menor na versão final. A forma inicial de escolha de itens pode ser, por um lado pela validade facial, ou seja, por aquilo que aparentemente parecem ter a ver com o que pretendemos testar, por outro, podem ser requeridos a um júri que pode ser constituído por cientistas ou profissionais do âmbito do nosso estudo, que com autoridade podem indicar ou rever os itens que estarão ligados ao nosso estudo. Quanto ao tipo de itens, estes podem ser abertos/fechados ou restritos. Os primeiros utilizam-se quando pretendemos respostas do tipo projectivo. As suas vantagens situam-se no facto de desejarmos por exemplo conhecer as habilidades e processos que um indivíduo ao ser testado usa para chegar à resposta. Os itens restritos, são aqueles de escolha forçada (verdadeiro-falso/escolha múltipla), as vantagens situam-se ao nível da relativa rapidez e objectividade na correcção que efectuamos. As principais desvantagens dos itens restritos, é o facto de estes poderem ser facilmente avaliados, mas estão sujeitos à aleatoriedade das respostas. No caso dos itens abertos/fechados, a principal desvantagem ou dificuldade situa-se ao nível da pontuação pois esta torna-se mais demorada. Para que este instrumento seja capaz de produzir a informação adequada deverá conter perguntas sobre cada um dos indicadores previamente definidos e formulá-las com um máximo de precisão. Mas esta precisão não é obtida imediatamente, é necessário testar o instrumento de observação.
A ADMINISTRAÇÃO A administração é conjuntamente com a selecção dos itens, uma das fases mais importantes para que este se torne num excelente meio de medição, ou seja, que tenha
Margarida Pocinho
Página 15
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
óptimas qualidades psicométricas. A objectividade requerida num teste é-lhe conferida pela padronização, criando-lhe condições, do mais uniforme possível, para os indivíduos examinados com o mesmo teste (Freeman, 1980). O teste ao ser administrado, deve ser feito de forma definida, sob condições uniformes, a uma amostra de examinados, representativa do grupo a que se destina (Aiken, 1982). É deste grupo que se estabelece as normas, ou seja a amostra de padronização. Nunnally refere que amostra de padronização deve conter no mínimo 300 indivíduos, sendo aconselhável uma amostra de 1000 sujeitos, ou ainda mais se possível (Nunnally, 1978). Bryman e Cramer não referem um numero fixo, mas uma relação de 3 a 5 indivíduos por variável (Bryman & Cramer, 2003), o que nos parece mais lógico, uma vez que diferencia escalas de 10 itens das escalas com 100. Autores como Golden, Freeman Aiken e Anastasi, alertam-nos para a necessidade de padronizar as condições circundantes de administração, assim questões como legibilidade, cor, forma tamanho, etc., tornam-se essenciais no pré-teste, pois podem provocar diferentes interpretações e variações na resposta que se pretende. O pré-teste não é mais do que “um processo de selecção, rejeição, adição e refinamento dos itens, e sua localização na escala em função do nível de dificuldade. Torna-se importante observar se os sujeitos compreendem as questões, se a administração é difícil, bem como o tempo que demora a responder ao teste, isto porque nem sempre é possível fazer o tipo de administração planeado (Anastasi, Testes psicológicos, 1977; Freeman, 1980; Aiken, 1982; Golden, Sawicki, & Franzen, 1984). Um dos aspectos essenciais na questão da padronização de um teste, é o facto de esperar que diferentes pessoas a quem o teste possa ser administrado, medindo o mesmo atributo, em termos de resultados, possam ser semelhantes. É essencial compreendermos a necessidade de existirem normas para a compreensão dos resultados de um teste, a amostra da padronização deve ser representativa da população, o que nos vai dar os valores de realização média dessa população. A distribuição dos resultados situa na curva de distribuição normal. A exigência de objectividade de um teste deste tipo, obriga, por facilidade de interpretação a que sejam fornecidas tabelas com os valores médios obtidos na população a quem passamos o pré-teste, ou mesmo de uma população específica onde o teste foi empregue. É essencial realizar-se estudos preliminares para ver se determinado
Margarida Pocinho
Página 16
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
tipo de teste é adequado a uma população que desejamos estudar, e essa adequação pode ser dada pelas medidas padronizadas. As normas e distribuição dos resultados são afectadas pela representatividade da amostra, bem como o podem ser pela proporção de cada sexo, distribuição geográfica, nível socioeconómico e idade. A padronização da administração é pois um aspecto essencial na planificação e construção de um teste, antes mesmo de ver a garantia que esse teste nos oferece, bem como a sua validade e adequabilidade.
TESTAR O INSTRUMENTO DE OBSERVAÇÃO A exigência de precisão varia consoante se trate de um questionário ou de um guião de entrevista. O guião de entrevista é o suporte da mesma. Mesmo quando está muito estruturado, fica nas mãos do entrevistador. Pelo contrário, o questionário destina-se frequentemente à pessoa interrogada; é lido e preenchido por ela. É, pois, importante que as perguntas sejam claras e precisas, isto é, formuladas de tal forma que todas as pessoas interrogadas as interpretem da mesma maneira. Num questionário dirigido a jovens e tendo por objecto a prática do desporto encontrava-se a seguinte pergunta: «Os seus pais praticam desporto?» Esta pergunta parece simples e clara e, no entanto, está mal formulada e conduz a respostas não utilizáveis. Em primeiro lugar, a palavra pais é imprecisa. Trata-se do pai e da mãe ou de um conjunto familiar mais alargado? Depois, que responder se apenas um deles pratica desporto? Uns responderão «sim», pensando que basta que um deles seja desportista; outros dirão «não», achando que a pergunta abrange ambos. Assim, para designar o mesmo estado de coisas obter-se-ão «sins» nuns e «nãos» noutros. Estas respostas não eram utilizáveis e toda a parte da investigação que andava à volta desta pergunta deve de ser abandonada. Além da exigência de precisão, é ainda necessário que a pessoa interrogada esteja em condições de dar a resposta, que a conheça e não esteja constrangida ou inclinada a escondê-la. Para nos assegurarmos de que as perguntas serão bem compreendidas e as respostas corresponderão, de facto, às informações procuradas é imperioso testar as perguntas. Esta operação consiste em apresentá-las a um pequeno número de pessoas pertencentes às diferentes categorias de indivíduos que compõem a amostra. Neste processo pode
Margarida Pocinho
Página 17
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
descobrir-se que um termo como «eutanásia» não é compreendido por toda a gente. Pode também chegar-se à conclusão que existem perguntas que provocam reacções afectivas ou ideológicas e cujas respostas deixam de ser utilizáveis. Por este meio identificam-se ainda outros tipos de perguntas, como aquelas às quais as pessoas não gostam de responder e, por conseguinte, se forem absolutamente necessárias é preferível não as colocar no início do questionário, pois pode influenciar a resposta às seguintes (Quivy & Campenhoudt, 1992). No que diz respeito ao guião de entrevista, as exigências são diferentes. É a forma de conduzir a entrevista que deve ser experimentada, tanto ou mais do que as próprias perguntas contidas no guião. Não falamos aqui do guião de entrevista muito estruturado, cujas exigências são semelhantes às do questionário. É sobretudo quando se trata de uma entrevista semidirectiva que as coisas se tornam muito diferentes. No entanto, cuidado: um guião de entrevista pouco estruturado não significa que o investigador tenha cometido omissões ou sido negligente durante a fase de construção, significa, que, por diversas razões ligadas aos seus objectivos de investigação, não julgou desejável que o tipo de construção da sua entrevista transparecesse através das perguntas (Quivy & Campenhoudt, 1992). Neste caso, trata-se de levar a pessoa interrogada a exprimir-se de forma muito livre acerca dos temas sugeridos por um número restrito de perguntas relativamente amplas para deixar o campo aberto a respostas diferentes daquelas que o investigador teria podido explicitamente prever no seu trabalho de construção. Aqui as perguntas ficam, portanto, abertas e não induzem as respostas nem as relações que podem existir entre elas. A estrutura das hipóteses e dos conceitos não está rigorosamente reproduzida no guião de entrevista, mas não está por isso menos presente no espírito de quem a conduz. O entrevistado deve continuamente levar o seu interlocutor a exprimir-se sobre os elementos desta estrutura sem lha revelar. O sucesso de uma entrevista deste tipo depende, é claro, da composição das perguntas, mas também, e sobretudo, da capacidade de concentração e da habilidade de quem conduz a entrevista. Assim, é importante testar-se. Isto pode fazer-se gravando algumas entrevistas e ouvindo como foram conduzidas (Quivy & Campenhoudt, 1992).
Margarida Pocinho
Página 18
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
FIDEDIGNIDADE
Termos como: garantia, precisão e fidelidade significam o mesmo, ou seja, apesar de não existir consenso, ambos significam fidedignidade, termo corrente nos meios académicos e pelo qual optamos neste manual. As duas características essenciais de um teste robusto são a garantia e a validade. Significa pois, até ponto é que as qualidades psicométricas de um teste são precisas e verdadeiras. A fidedignidade de um teste consiste na possibilidade de ele fornecer resultados consistentes em várias medições (Freeman, 1980; Aiken, 1982). Para Freeman fidedignidade de um teste não tem a ver com a construção do teste, mas sim com a administração deste. Questões como a predisposição dos indivíduos para realizar um teste, diferenças entre indivíduos, habilidades, efeito da prática, condições físicas do examinado na administração do teste, competência dos examinadores, são no entender de Freeman factores importantes a ter em conta na administração de um teste. A garantia é em parte uma consequência das condições em que a prova é aplicada. A fidedignidade é exprimida em termos estatísticos por um índice estatístico, o coeficiente de fidedignidade que indica até que ponto os indivíduos de um grupo obtém resultados relativamente consistentes quando se procede a duas medições utilizando o mesmo teste ou duas formas equivalentes de um teste e se calcula a correlação (Freeman, 1980). A fidedignidade é traduzida neste termos pelas diferentes pontuações dos observadores, bem como pela estabilidade temporal do atributo ou atributos medidos, obtendo-se assim a correlação entre dois testes paralelos ou duas aplicações do mesmo teste (testereteste). É traduzida, também pela consistência interna, ou seja, a homogeneidade dos itens do teste, mostrando-nos se estes (nas sub-partes) medem o mesmo atributo. Ao falarmos assim de fidedignidade, falamos concretamente de dois aspectos essenciais que esta mede: fidedignidade externa - consistência de um teste ao longo do tempo (estabilidade temporal); fidedignidade interna - se o atributo que a escala se propõe medir é consistente e se mantém apenas a medição de um único atributo (Kline, 1987). A garantia de um teste traduz-se num valor decimal (positivo) que assume valores entre o 0,00 e 1,00. Significa que 0,00 é a ausência de garantia e 1,00 garantia perfeita.
Margarida Pocinho
Página 19
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
Anastasi refere que a fidedignidade pode ser definida como o grau de consistência entre duas medidas da mesma coisa (Anastasi, Testes psicológicos, 1977). Nunnally diz que o coeficiente de garantia é a correlação entre dois testes (Nunnally, 1978). Prieto e Muñiz definem Fidedignidade como capacidade de um instrumento fornecer resultados consistentes em aplicações repetidas. Esta noção, em geral, é utilizada para abarcar os dois aspectos diferentes da fidedignidade: a externa e a interna. Fidedignidade (interna) é o termo que se usa mais vulgarmente quando se pretende referir o grau de consistência entre todos os itens de uma medida. Quando se mede a consistência interna obtém-se um coeficiente de confiabilidade que, segundo Bryman e Cramer, é bom se for superior a 0,8 (Bryman & Cramer, 2003). Prieto e Muñiz apresentam critérios mais alargados e consideram inadequado um coeficiente abaixo de 0,60, adequado com algumas carências os coeficientes entre 0,60 e 0,70, adequado entre 0,70 e 0,80, bom entre 0,80 e 0,85 e excelente os que se encontram acima de 0,85 (Prieto & Muñiz, 2000). Como refere Golden não existe um tipo ideal de teste, estes incluem sempre algum erro (Golden, Sawicki, & Franzen, 1984). Aiken refere erros do tipo sistemático e erros do tipo não sistemático. Os primeiros influenciam as pontuações dos testes, mas não afectam a garantia. Os segundos podem baixar a garantia, uma vez que são imprevisíveis (Aiken, 1982). A existência de vários modos de estimação de garantia ou fidedignidade, como a consistência interna, as formas paralelas e o teste reteste, têm em conta a necessidades de quem administra o teste, o tipo de itens, bem como aquilo que o teste pretende medir, fornecendo dados que nos ajudam a diminuir a variância do erro.
CONSISTÊNCIA INTERNA
A consistência interna significa a consistência dos resultados ao longo do teste quando este é aplicado uma vez, ou seja, a precisão da medição efectuada num determinado momento (Freeman, 1980). Só podemos dizer que um instrumento tem consistência interna se todas as suas sub partes medirem a mesma característica. A consistência interna diz respeito às estimativas de garantia, baseando-se na correlação média entre os
Margarida Pocinho
Página 20
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
itens (Freeman, 1980). Ao requerer uma só aplicação, trata-se da melhor forma de avaliar os erros de medição, bem como mais económico. De entre as formas que existem para determinar a consistência interna temos: o método metade-metade, a correlação item-restante, o coeficiente alfa de Cronbach e a correlação média entre itens. Para determinar a consistência externa temos o testereteste e as formas equivalentes.
METADE-METADE DE SPEARMAN-BROWN
Postula que se pode chegar a uma medida de fidedignidade só com uma aplicação de uma de forma de um teste. Correlacionam-se as duas metades de um teste, aleatorizando os itens, ou com base nos itens pares e impares. Este método tem muita afinidade com o método das formas equivalentes. Na fidedignidade pelo método Metade-Metade, produz-se uma espécie de forma alternativa, dividindo uma escala em duas partes. Este método avalia o grau de consistência entre itens, determinando a consistência interna da escala, embora não possa medir a estabilidade temporal, oferece a vantagem de uma única aplicação. Este método assume que todos os itens contribuem de igual forma para a mensuração de um constructo mental. O coeficiente de correlação obtido através desta técnica Metade-Metade tende a gerar uma estimação inferior à da escala na sua totalidade já que a correlação aqui obtida é relativa a metade do teste. As escalas com elevado número de itens geram fidedignidades maiores. Com o objectivo de superar esta dificuldade foi criada uma fórmula para ajustar o coeficiente de correlação para toda a escala. A equação que define este tipo de correlação é a fórmula de previsão Spearman-Brown:
onde
é o número de "testes" combinadoρxx'é a fiabilidade do actual "teste". A
fórmula prevê a confiabilidade de um novo teste composto se replicar o actual critério N vezes (ou, de forma equivalente, a criação de um teste com N formas paralelas do actual exame). Assim, N = 2 implica a duplicação do tamanho do teste, adicionando os itens com as mesmas propriedades que as do actual exame (em função do aumento do Margarida Pocinho
Página 21
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
número de itens de uma medida). Valores de N inferior a um pode ser usado para prever o efeito de reduzir um teste. A fórmula também pode ser reorganizado para prever o número de repetições necessárias para atingir um grau de fiabilidade:
Esta fórmula é comumente utilizada por psicometristas para prever a confiabilidade de um teste após mudar o tamanho do teste. Esta relação é particularmente util para a divisão de metade-metade ( e respectivos métodos de estimativa de confiabilidade. A fórmula também é útil para a compreensão da relação entre o teste não-linear e confiabilidade sobre o tamanho do teste Se o teste longo / curto não é paralelo ao actual teste a previsão não será rigorosamente exactos. Por exemplo, se um teste altamente confiável foi alongado, acrescentando muitos itens pobres, estes influenciam negativamente a confiabilidade que provavelmente será muito inferior ao previsto por esta fórmula. A análise através da teoria do item resposta fornece uma informação muito mais precisa permitindo prever mudanças na qualidade da medição, adicionando ou removendo itens individuais.
CORRELAÇÃO ITEM – RESTANTE
A crescente quantidade e implemento da estatística na área da informática possibilitam ganhos em termos de tempo. O que há alguns anos era um processo moroso tornou-se agora numa operação simples e rápida. A correlação item-restante é uma outra fórmula de conhecer a fidedignidade de um teste, consegue-se através da correlação entre o respectivo item e a soma dos itens sem o item que se escolheu. A correlação item-restante permite eliminar os itens que apresentam correlações em relação a outros itens. Pode ocorrer a diminuição de muitos itens, mas isso não invalida este tipo de método uma vez que a sua aplicação permite mais garantia.
Margarida Pocinho
Página 22
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
ALFA DE CRONBACH
O coeficiente alfa de Cronbach () foi desenvolvido para calcular a confiabilidade de um teste. O valor de aumenta com o número de questões da escala; assim, escalas com vinte questões freqüentemente apresentam valores de próximo de 0,90 (Streiner, 1993). O coeficiente alfa de Cronbach é o resultado da aplicação de uma fórmula que serve para determinar a fidedignidade através da consistência interna, que varia entre 0 (zero) e 1 (um). Uma regra consensual entre a comunidade científica é que um α de 0,6-0,7 indica uma fidedignidade aceitável, 0,8-0,95 indica que é boa e 0,95 ou superior não é desejável pois indica que os items podem ser totalmente redundantes. Para o caso das escalas somativas de respostas dicotómicas é utilizada a fórmula KR-20 e KR-21 de Kuder-Richardson utilizados como medidas da consistência interna [as respostas a todos os itens que integram a escala devem estar codificados em 0 e 1 (incorrecto vs. correcto; discordo vs. concordo; falso vs. verdadeiro, etc.)]. O coeficiente KR-21 é uma simplificação do coeficiente KR-20, na qual se pressupõe que todos os itens têm variância igual. A sua importância é meramente histórica, uma vez que a respectiva determinação visava exclusivamente simplificar os procedimentos de cálculo manual, numa época anterior à existência generalizada de software estatístico (Alferes, 2008)
METADE-METADE DE GUTTMAN
Trata-se agora de considerar uma outra fórmula de estimar a garantia e que pode ser interpretado como o alfa de Cronbach. Trata-se de conceber os itens em dois grandes grupos e tratar estes como itens únicos, mas assume variâncias diferentes das duas metades, em relação ao coeficiente metade-metade de Spearman-Brown.
TESTE-RETESTE: FORMA ÚNICA
Esta é outra das formas de estimação da garantia/fidedignidade. Trata-se da administração de um mesmo teste em duas ocasiões diferentes ao mesmo grupo de indivíduos. O coeficiente de garantia obtém-se pela correlação entre as pontuações Margarida Pocinho
Página 23
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
obtidas em cada uma das aplicações obtidas do teste (Freeman, 1980).Es te tipo de estimação parte do princípio de que as características de um teste têm alguma estabilidade temporal. Ao interpretar os resultados do coeficiente de Teste-Reteste devem ter-se em conta algumas das limitações deste método. Ex: fadiga, diferentes condições ambientais, erros de administração cometidos pelo examinador, bem como o efeito de memória que pode ocorrer durante a segunda administração. Torna-se então numa obrigação a necessidade de limitar o número de vezes que o indivíduo é examinado com a mesma prova. Em vez de retestes frequentes, os elementos são obtidos examinando maior número de indivíduos em vez de os examinar várias vezes. Apresenta-nos algumas vantagens como o facto de o conteúdo ser completamente equivalente nas duas ocasiões, o facto de ser mais fácil elaborar uma forma única de um teste do que duas (Freeman, 1980). Em termos de desvantagens, trata-se de um método demorado. As modificações ocasionais pelo facto de se ter apreendido e desenvolvido “aptidões”. Os indivíduos já não são os mesmos (Freeman, 1980). Ainda dentro da opinião deste autor, embora o coeficiente de garantia seja relativamente elevado quando se usa a mesma forma de teste, a influência da evocação não é tão grande como possa parecer.
FORMAS EQUIVALENTES
As formas paralelas, que na sua forma ideal serão formas alternativas, consistem na administração de dois testes, equivalentes, aos mesmos indivíduos (Freeman, 1980). Esta forma considera que o número de itens têm de ser o mesmo, bem como os tipos de itens devem ser uniformes quanto ao conteúdo, operações ou dimensões implicáveis, níveis e amplitude da dificuldade e correcta solução. A distribuição da dificuldade deve ser idêntica, assim como devem ter o mesmo grau de homogeneidade no que respeita às operações ou dimensões medidas. As médias ou desvios padrões das duas formas devem ser idênticos. A mecânica de aplicação e apuramento deve ser semelhante nas duas formas (Freeman, 1980).
Margarida Pocinho
Página 24
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
Este método de estimação da garantia por formas equivalentes apresenta vantagens como os possíveis efeitos de uma prática específica ou de uma evolução, pois os itens das duas versões não são os mesmos. Apresenta também algumas desvantagens, nomeadamente ao nível da construção e padronização. Isto é, assegurar a verdadeira equivalência das duas formas. De um modo geral os valores do coeficiente alfa são muito próximos dos valores obtidos pela correlação entre as formas alternativas. No entanto, se a correlação das duas formas alternativas for significativamente mais baixa, significa que algum erro de medida está presente. Um baixo coeficiente de fidedignidade obtido através da correlação de duas formas paralelas, significa que os dois testes não medem a mesma coisa, ou seja, não são duas formas alternativas (Freeman, 1980)
VALIDADE DE UM TESTE
A validade avalia até que ponto o procedimento de medição produz a resposta correcta, qual o poder de resposta e o poder de interpretação bem como o significado dos resultados. Procura responder a dois pontos ou questões essenciais que se levantam na construção e aplicação de um teste, primeiro se o teste está mesmo a medir o que desejávamos, em segundo se as informações têm algum relevo para o estudo que desejamos. Um teste é válido quando mede o que se supõe medir. Validade é portanto o grau com que os resultados obtidos são correctamente interpretados.
Aquilo que à partida pode parecer ser uma boa abordagem para a mensuração numa base intuitiva (validade facial), pode não ser válido pelos métodos e padrões de investigação (Nunnally, 1978). Poderá um teste ser valido e não ser fidedigno e vice-versa?. Aiken refere que “um teste pode ser fidedigno sem ser válido, mas não pode ser válido sem ser fidedigno”. É que enquanto a garantia ou fidedignidade é normalmente afectada por erros não sistemáticos que têm a ver com a administração e com a apresentação (critérios externos) a validade pode ser afectada por erros sistemáticos. A existência de fiabilidade adequada é necessária, mas não suficiente, para garantir a validade adequada.
Margarida Pocinho
Página 25
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
Relativamente à validade dos testes, não raras vezes se refere que um dado teste psicológico que pode ser válido numa situação não o é noutra, ou, ainda, que existem níveis diferentes de magnitude de validade de um teste. Este modo de falar sobre a validade dos testes psicológicos é, no mínimo, confuso. Para confundir ainda mais, o grande psicometrista Samuel Messick refere que a validade é um julgamento avaliativo que conjuga a evidência empírica e as racionalizações teóricas com a adequação e propriedade de inferências e acções baseadas em saturações de testes ou outros modos de avaliação (Messick, 1989). Este modo de entender e definir a validade dos testes, que é assumido pela própria American Psychological Association (American Psychological Association, 1985), tornou o tema um verdadeiro labirinto. Com efeito se fizermos uma revisão literatura da literatura tradicional e actual sobre o tema, encontramos um elenco sem fim de expressões ou tipos de validade que um teste pode ter. Vejamos alguns deles: 1. Validade de construto (também chamado de validade de conceito, validade conceptual, validade de construção, validade hipotético-dedutiva) (Cronbach & Meehl, 1955); 2. Validade de conteúdo (Cronbach & Meehl, 1955; Haynes, Richard, & Kubany, 1995); 3. Validade de critério, também chamada Validade preditiva (Cronbach & Meehl, 1955); 4. Validade concorrente (Cronbach & Meehl, 1955); 5. Validade aparente ou facial (Mosier, Problems and designs of cross-validation, 1951; Mosier, Problems and designs of cross-validation, 1951); 6. Validade generalizável ou inferncial (Mosier, A critical examination of the concepts of face validity, 1947; Mosier, Problems and designs of crossvalidation, 1951; Messick, 1989); 7. Validade discriminante (Campbell & Fiske, 1959); 8. Validade convergente (Campbell & Fiske, 1959); 9. Validade incremental (Bryant, 2000); 10. Validade factorial (Guilford, 1946); 11. Validade lógica (Cronbach L. J., 1949); 12. Validade empírica (empirical validity) (Cronbach L. J., 1949); 13. Validade consequencial (Messick, 1989);
Margarida Pocinho
Página 26
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
14. Validade intrínseca (Gulliksen, 1950); 15. Validade substantiva (Messick, 1989); 16. Validade estrutural (Messick, 1989); 17. Validade externa (Messick, 1989; Emory, 1985); 18. Validade interna também denominadas por validades de critério, de conteúdo e de construto (Emory, 1985); 19. Validade de hipótese também chamada de Validade indireta (Weber, 1990; Janis, 1965); 20. Validade posditiva que é o oposto de validade preditiva (Haynes, Richard, & Kubany, 1995). Encontramos, ainda referencia a mais tipos de validade em vários programas informáticos de tratamento de dados, contudo não identificámos a sua origem. São elas: 21. Validade curricular (curricular validity): constitui uma extensão da validade de conteúdo e consiste em verificar o aumento da aprendizagem (se se descobre que há aumento de aprendizagem em dois testes com validade de conteúdo, então se verifica validade curricular); 22. Validade diferencial (differential validity): validade de uma bateria de testes avaliada pela capacidade de predizer diferenças no desempenho em dois ou mais critérios; 23. Validade cruzada (cross validity): confirmar a validade dos resultados a partir de um novo exame com estudo empírico feito com uma segunda amostra independente; 24. Validade de grupos mistos (mixed-group validity): duas amostras com formatos diferentes no traço ou diferentes probabilidades em expressar dado comportamento são comparadas; 25. Validade múltipla (multiple validity): um teste tem validade múltipla quando estiver associado a uma amostra vasta de critérios; 26. Validade ecológica (ecologial validity): o quanto um instrumento psicológico mede factores espaciais, temporais e situacionais do campo de aplicação; 27. Validade sintética (synthetic validity): validade de teste complexo ou de uma bateria de testes baseada no facto de que vários factores foram representados num único escore composto;
Margarida Pocinho
Página 27
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
28. Validade condicional (conditional validity): a validade do teste depende do uso que dele se faz; 29. Validade incondicional (unconditional validity): a validade do teste depende do construto sendo medido e não do uso que dele se faz. Parece, então, que a intenção de Messick de "integrar" os diferentes aspectos de validade dos testes psicológicos, de facto introduziu enorme confusão. Borsboom, Mellenbergh e Van-Heerden colocam muito bem esse problema ao afirmarem: O conceito de validade com o qual os teóricos estão interessados parece estranhamente divorciado do conceito que pesquisadores têm em mente quando colocam a questão da validade. Isso deve-se a que, no século passado, a questão da validade evoluiu da questão de se a gente mede o que se pretende medir para a questão de se as relações empíricas entre scores de um teste se emparelham com relações teóricas numa rede nomológica2 e, finalmente, para a questão de se interpretações e acções baseadas em scores de testes são justificadas – não somente à luz de evidência científica, mas com respeito a consequências sociais e éticas do seu uso (Borsboom, Van-Heerden, & Mellenbergh, 2003). Pasquali refere que desde o trabalho de Cronbach e Meehl dos meados do século passado, o conceito de validade dos testes vem perdendo o seu sentido original. Embora os autores quisessem precisamente salvar esse conceito, a introdução do modelo da rede nomológica, concebida dentro da visão do positivismo lógico veio, na verdade, destruir o conceito de validade, originalmente concebido por Kelly na década de 1920 e, depois, por Cattell. O conceito de validade, foi totalmente descaracterizado com a definição do mesmo dada pelo grande psicometrista Samuel Messick, em 1989. Pasquali reforça a necessidade da redescoberta do conceito para salvar as bases da Psicometria (Pasquali, 2007). Quanto a nós um teste psicológico é um conjunto constituído de comportamentos que o sujeito deve exibir. Ele é um teste se todos os comportamentos envolvidos no conjunto se referem à "mesma coisa" (construto), é a questão da unidimensionalidade. Ademais, alguns sujeitos podem ser capazes de executar todos os comportamentos envolvidos,
2
nomological network
Margarida Pocinho
Página 28
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
outros sujeitos, apenas alguns dos comportamentos e outros, ainda, nenhum dos comportamentos. A base da argumentação consiste em se entender que validade constitui uma propriedade do instrumento de medida e que não tem nada a ver com a ideia de que ela consistiria num julgamento sobre o significado dos scores de um teste, retomando, assim, o sentido original que Kelly (1927) quis dar a esse conceito, ao afirmar que um teste é válido quando mede aquilo que supostamente deve medir. Recorrendo a um exemplo de Pasquali, imagine que construímos um metro, feito de ferro, para medir o comprimento das coisas. Medimos um pedaço de pau e conseguimos uma medida do mesmo. Em seguida, aquecemos o metro e medimos novamente o pedaço de pau e a medida alterou-se (Pasquali, 2007). Coloca-se aqui uma questão; será que na segunda vez que o utilizámos ele já não mede o comprimento? O mesmo se pode passar com um arma que fica com a mira descalibrada. Claro que sim, no entanto está medindo errado. É óbvio que o metro continua medindo aquilo para o qual ele foi feito para fazer, isto é, medir comprimento. Isto é validade. Continua medindo o comprimento, é um facto, no entanto está a faze-lo sem precisão, erradamente, porque o metro, com o calor (factores perturbadores no uso do instrumento) ficou descalibrado. Mas a presença de factores perturbadores é corriqueira em qualquer empreitada científica (as chamadas variáveis estranhas ou confounding variables). De qualquer forma, o instrumento estar calibrado ou não, é questão de precisão, não de validade, porque ele continua medindo aquilo para o qual ele foi construído. Assim, continua sendo verdadeiro que o metro mede comprimento (validade), embora na prática ele o faça erradamente (precisão). Dessa forma, validade responde a se algo é verdadeiro ou falso, enquanto precisão responde a se algo está correcto ou errado. A primeira questão diz respeito a um problema ontológico e a segunda a um problema psicométrico (de mensuração) ou metodológico. No caso dos testes psicológicos, os dois problemas são relevantes e importantes, mas um não é o outro. Assim, conclui-se que os parâmetros de validade e precisão são características do instrumento de medida, do teste, e não da medida feita de um objecto. Esta última é confiável e legítima se o instrumento que a produziu for válido (pertinente, relevante) e preciso (calibrado). Quem garante a qualidade da medida é a qualidade do instrumento. E a validade do instrumento diz respeito exclusivamente à pertinência do instrumento com respeito ao objecto que se quer medir; é a questão da referência. Margarida Pocinho
Página 29
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
Existem algumas linhas matemáticas que referem que a Análise Factorial, pelo método das Componentes Principais, pode não ser a técnica mais adequada quando temos uma escala de medida dicotómica.
Para que não restem dúvidas que os dados provêm de uma população normal multivariada, devemos fazer o Teste de esfericidade de Bartlett que testa a hipótese da matriz das correlações ser a matriz da identidade com determinante igual a 1. Resultados como os que podem ser observados no quadro que se segue demonstram que o teste Bartlett tem associado um nível de significância inferior a 0,05, o que leva à rejeição da hipótese da matriz das correlações na população ser a identidade, mostrando que a correlação que existe é entre as variáveis.
Quadro 1: Teste KMO e Bartlett - GDS Kaiser-Meyer-Olkin (KMO)
Teste da esfericidade de Bartlett
Qui-quadrado (aproximação)
0,932 5994,603
gl
378
p
0,000
Se o nível de significância fosse superior a 0,05, dever-se-ia reconsiderar a utilização deste modelo factorial. Um outro indicador da força da relação, entre as variáveis, é o Coeficiente de Correlação Parcial. O Kaiser-Meyer-Olkin (KMO), que varia entre zero e um, compara as correlações simples com as correlações parciais observadas entre as variáveis. Sendo que a decisão de uma Análise Factorial com um KMO <0,5 é inaceitável; entre [0,5 – 0,6[ é má; entre [0,6 – 0,7[ pouco razoável, mas aceitável; entre [0,7 – 0,8 [ aceitável; entre [0,8 – 0,9[ boa decisão e de [0,9 a 1] muito boa decisão. No nosso caso, acima apresentado pode observar-se um KMO de 0,932, o que revela que a Análise Factorial tem uma adequação muito boa para usar na medida psicometrica em análise.
Margarida Pocinho
Página 30
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
A RECOLHA DOS DADOS
A terceira operação da fase de observação é a recolha dos dados. Esta constitui a execução do instrumento de observação. Esta operação consiste em recolher ou reunir concretamente as informações determinadas junto das pessoas ou das unidades de observação incluídas na amostra. Proceder-se-á por observação directa quando a informação procurada estiver directamente disponível. O guião de observação destina-se então ao próprio observador, e não a um eventual entrevistado. Por conseguinte, a sua redacção não está sujeita a restrições tão precisas como, por exemplo, as do questionário. Não sendo uma observação directa, a recolha de dados estatísticos existentes, de documentos escritos (textos, opúsculos...) ou pictóricos (cartazes, fotografias...), levanta igualmente problemas específicos que serão evocados no último ponto desta etapa. Pelo contrário, a observação indirecta, por meio de questionário ou de guião de entrevista, deve vencer a resistência natural ou a inércia dos indivíduos. Não basta conceber um bom instrumento, é preciso ainda pô-lo em prática de forma a obter-se uma proporção de respostas suficiente para que a análise seja válida. As pessoas não estão forçosamente dispostas a responder, excepto se virem nisso alguma vantagem (falar um pouco, por exemplo) ou se acharem que a sua opinião pode ajudar a fazer avançar as coisas num domínio que consideram importante. O investigador deve, portanto, convencer o seu interlocutor da importância da sua participação. É por isso que geralmente se evita enviar um questionário pelo correio, confiando-o, de preferência, se o custo não for excessivo, a inquiridores. O papel do inquiridor é, neste caso, o de criar nas pessoas interrogadas uma atitude favorável, a disposição para responderem francamente às perguntas e, por fim, entregarem o questionário correctamente preenchido. Caso se trate de um questionário enviado por via postal, é importante que a apresentação do documento não seja dissuasiva e que este seja acompanhado por uma carta de introdução, curta, clara, concisa e motivante. Antes de abordar, nas páginas seguintes, o panorama das principais categorias de métodos de recolha de dados, é bom insistir na antecipação. Esta não é uma operação da observação propriamente dita, mas deve ser uma preocupação constante do investigador, ao elaborar o seu instrumento de observação. Na fase seguinte, a análise das informações, os dados observados serão submetidos a diversas operações estatísticas que visam dar--lhes a forma exigida pelas hipóteses de investigação. É por Margarida Pocinho
Página 31
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
isso que é necessário sublinhar que a escolha do instrumento de observação e a recolha dos dados devem inscrever-se no conjunto dos objectivos e do dispositivo metodológico da investigação. A escolha de um método de inquérito por questionário junto de uma amostra de várias centenas de pessoas impede que as respostas individuais possam ser interpretadas isoladamente, fora do contexto previsto pelos investigadores. É, pois, preferível saber à partida que os dados recolhidos nestas condições só fazem sentido quando tratados de modo estritamente quantitativo, que consiste em comparar as categorias de respostas e em estudar as suas correlações. Pelo contrário, outros processos de recolha de dados porão de lado qualquer possibilidade de tratamento quantitativo e exigirão outras técnicas de análise das informações reunidas. A escolha dos métodos de recolha dos dados influencia, portanto, os resultados do trabalho de modo ainda mais directo: os métodos de recolha e os métodos de análise dos dados são normalmente complementares e devem, portanto, ser escolhidos em conjunto, em função dos objectivos e das hipóteses de trabalho. Se os inquéritos por questionário são acompanhados por métodos de análise quantitativa, os métodos de entrevista requerem habitualmente métodos de análise de conteúdo, que são muitas vezes, embora não obrigatoriamente, qualitativos. Resumindo, é importante que o investigador tenha uma visão global do seu trabalho e não preveja as modalidades de nenhuma destas etapas sem se interrogar constantemente acerca das suas implicações posteriores. Precisemos, além disso, que as perguntas que constituem o instrumento de observação determinam o tipo de informação que obteremos e o uso que dela poderemos fazer na análise dos dados. Se nos interessamos, por exemplo, pelo sucesso escolar de alunos, podem ser considerados três níveis de precisão na informação: insucesso ou sucesso, o lugar (primeiro, segundo, terceiro..., último) e a percentagem de pontos obtidos em relação ao total. A informação recolhida dependerá da pergunta que figura no instrumento de observação. Ao fazer a análise, os dados qualitativos (o insucessosucesso) não são tratados da mesma forma que os dados originais (o lugar) ou os quantitativos (a percentagem). Neste exemplo observamos uma vez mais a interdependência entre a observação e a análise dos dados. Temos então de antecipar e de nos interrogar regularmente para cada resposta prevista: «Será que a pergunta que coloco vai dar-me a informação e o grau de
Margarida Pocinho
Página 32
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
precisão de que necessito na fase posterior?» Ou ainda: «Para que deve servir esta informação e como vou poder medi-la e relacioná-la com as outras?» Existem, de facto, regras muito precisas para a construção dos testes. É disso que dissertaremos de seguida. Apenas conhecemos correctamente um método de investigação depois de o termos experimentado. Antes de escolhermos um é, portanto, indispensável asseguramo-nos, junto de investigadores que dominem bem, da sua pertinência em relação aos objectivos específicos de cada trabalho, às suas hipóteses e aos recursos de que dispomos. Os panoramas que apresentamos não substitui, de forma alguma, esta maneira de proceder, mas pensamos que pode ser útil para a preparar. O termo «método» já não é aqui entendido no sentido lato de dispositivo global de elucidação do real, mas num sentido mais restrito, o de dispositivo específico de recolha ou de análise das informações (assunto desta sexta etapa), destinado a testar hipóteses de investigação. Neste sentido restrito, a entrevista de grupo, o inquérito por questionário ou a análise de conteúdo são exemplos de métodos de investigação. No âmbito da aplicação prática de um método podem ser utilizadas técnicas específicas, como, por exemplo, as técnicas de amostragem. Trata-se então de procedimentos especializados que não têm uma finalidade em si mesmo. Da mesma forma, como já referimos, os dispositivos metodológicos fazem necessariamente apelo a disciplinas auxiliares, como, a matemática, a estatística, medicina, psicologia social… Só serão aqui consideradas as grandes categorias de métodos que permitem recolher informações para posterior análise, de forma a não nos perdermos em pormenores, que, por serem tratados superficialmente, seriam de qualquer forma inúteis..
O INQUÉRITO POR QUESTIONÁRIO
Consiste em colocar a um conjunto de inquiridos, geralmente representativo de uma população, uma série de perguntas relativas à sua situação social, profissional ou familiar, às suas opiniões, à sua atitude em relação a opções ou a questões humanas e sociais, às suas expectativas, ao seu nível de conhecimentos ou de consciência de um acontecimento ou de um problema, ou ainda sobre qualquer outro ponto que interesse os investigadores. O inquérito por questionário de perspectiva sociológica distingue-se da
Margarida Pocinho
Página 33
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
simples sondagem de opinião pelo facto de visar a verificação de hipóteses teóricas e a análise das correlações que essas hipóteses sugerem. Por isso, estes inquéritos são geralmente muito mais elaborados e consistentes do que as sondagens. Dado o grande número de pessoas geralmente interrogadas e o tratamento quantitativo das informações que deverá seguir-se, as respostas à maior parte das perguntas são normalmente précodificadas, de forma que os entrevistados devem obrigatoriamente escolher as suas respostas entre as que lhes são formalmente propostas (Quivy & Campenhoudt, 1992). O questionário chama-se «de administração indirecta» ou «heteroadministração» quando o próprio inquiridor o completa a partir das respostas que lhe são fornecidas pelo inquirido. Chama-se «de administração directa» ou «autoadministração» quando é o próprio inquirido que o preenche. O questionário é então entregue em mão por um inquiridor encarregado de dar todas as explicações úteis, ou endereçado indirectamente pelo correio, online ou por qualquer outro meio equivalente. Os processos que não implicam a presença do entrevistador merecem pouca confiança e só excepcionalmente devem ser utilizados na investigação, dado que as perguntas são muitas vezes mal interpretadas e o número de respostas é geralmente demasiado fraco. Em contra partida, utiliza-se cada vez mais frequentemente o telefone neste tipo de questionários. O inquérito é especialmente adequado no conhecimento de uma população enquanto tal: as suas condições e modos de vida, os seus comportamentos, os seus valores ou as suas opiniões. A análise de um fenómeno social que se julga poder apreender melhor a partir de informações relativas aos indivíduos da população em questão, como o impacto de uma política familiar ou a introdução da microinformática no ensino. De uma maneira geral, os casos em que é necessário interrogar um grande número de pessoas e em que se levanta um problema de representatividade. A vantagem deste método é a possibilidade de quantificar uma multiplicidade de dados e de proceder, por conseguinte, a numerosas análises de correlação. A grande limitação é a superficialidade das respostas, que não permite a análises de certos processos, como por exemplo a evolução do trabalho clandestino ou a das concepções ideológicas profundas. Por conseguinte, os resultados apresentam-se muitas vezes como simples descrições, desprovidas de elementos de compreensão penetrantes. A individualização dos entrevistados, que são considerados independentemente das suas redes e relações sociais. Para que o método seja digno de confiança devem ser preenchidas várias condições: rigor na escolha da amostra, formulação clara e unívoca das perguntas, Margarida Pocinho
Página 34
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
correspondência entre o universo de referência das perguntas e o universo de referência do entrevistado, atmosfera de confiança no momento da administração do questionário, honestidade e consciência profissional dos entrevistadores. Na prática, as principais dificuldades provêm, geralmente, da parte dos entrevistadores, que nem sempre estão suficientemente formados e motivados para efectuarem este trabalho exigente e muitas vezes desencorajador (Quivy & Campenhoudt, 1992).
COMPETENCIAS NECESSÁRIAS
1. Técnicas de amostragem. 2. Técnicas de redacção, de codificação e de exploração das perguntas, incluindo as escalas de atitude. 3. Gestão de redes de entrevistadores. 4. Iniciação aos programas informáticos de gestão e análise de dados de inquéritos (SPSS, SPAD, SAS...). 5. Estatística descritiva e análise estatística dos dados. 6. No caso mais frequente, em que o trabalho é efectuado em equipa e recorrendo a serviços especializados, não é indispensável que todos os investigadores sejam pessoalmente formados nos domínios mais técnicos.
A ENTREVISTA
Nas suas diferentes formas, os métodos de entrevista distinguem-se pela aplicação dos processos fundamentais de comunicação e de interacção humana. Correctamente valorizados, estes processos permitem ao investigador retirar das entrevistas informações e elementos de reflexão muito ricos e variados. Ao contrário do inquérito por questionário, os métodos de entrevista caracterizam-se por um contacto directo entre o investigador e os seus interlocutores e por uma fraca directividade por parte daquele. Instaura-se, assim, em princípio, uma verdadeira troca, durante a qual o entrevistado exprime as suas percepções de um acontecimento ou de uma situação, as suas interpretações ou as suas experiências, ao passo que, através das suas perguntas abertas e das suas reacções, o investigador facilita essa expressão, evita que ela se afaste dos objectivos da investigação e permite que o interlocutor aceda a um grau máximo de
Margarida Pocinho
Página 35
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
autenticidade e de profundidade cujo conteúdo será objecto de uma análise de conteúdo sistemática, destinada a testar as hipóteses de trabalho (Quivy & Campenhoudt, 1992). A entrevista semidirectiva, ou semidirigida, é certamente a mais utilizada em investigação social. É semidirectiva no sentido em que não é inteiramente aberta nem encaminhada por um grande número de perguntas precisas. Geralmente, o investigador dispõe de uma série de perguntas-guias, relativamente abertas, a propósito das quais é imperativo receber uma informação da parte do entrevistado. Mas não colocará necessariamente todas as perguntas pela ordem em que as anotou e sob a formulação prevista. Tanto quanto possível, «deixará andar» o entrevistado para que este possa falar abertamente, com as palavras que desejar e pela ordem que lhe convier. O investigador esforçar-se-á simplesmente por reencaminhar a entrevista para os objectivos cada vez que o entrevistado deles se afastar e por colocar as perguntas às quais o entrevistado não chega por si próprio no momento mais apropriado e de forma tão natural quanto possível. A entrevista centrada, mais conhecida pela sua denominação inglesa, focused interview, tem por objectivo analisar o impacto de um acontecimento ou de uma experiência precisa sobre aqueles que a eles assistiram ou que neles participaram; daí o seu nome. O entrevistador não dispõe de perguntas preestabelecidas, como no inquérito por questionário, mas sim de uma lista de tópicos precisos relativos ao tema estudado. Ao longo da entrevista abordará necessariamente esses tópicos, mas de modo livremente escolhido no momento de acordo com o desenrolar da conversa. Neste quadro relativamente flexível não deixará de colocar numerosas perguntas ao seu interlocutor. Em certos casos, como no âmbito da análise de histórias de vidas, os investigadores aplicam um método de entrevista extremamente aprofundado e pormenorizado, com muito poucos interlocutores. Neste caso, as entrevistas, são muito mais longas, por isso divididas em várias sessões (Quivy & Campenhoudt, 1992). O método de entrevista é especialmente adequado na análise do sentido que os actores dão às suas práticas e aos acontecimentos com os quais se vêem confrontados: os seus sistemas de valores, as suas referências normativas, as suas interpretações de situações conflituosas ou não, as leituras que fazem das próprias experiências, etc.; na análise de um problema específico: os dados do problema, os pontos de vista presentes, o que está em jogo, os sistemas de relações, o funcionamento de uma organização, etc.; na
Margarida Pocinho
Página 36
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
reconstituição de um processo de acção, de experiências ou de acontecimentos do passado. Uma das vantagens deste método é o grau de profundidade dos elementos de análise recolhidos uma vez que a flexibilidade e a fraca directividade da entrevista permite recolher os testemunhos e as interpretações dos interlocutores, respeitando os próprios quadros de referência (linguagem e as suas categorias mentais). Mas se a flexibilidade pode trazer vantagens, também pode colocar limites e problemas, pois o método pode por um lado intimidar aqueles que não consigam trabalhar com serenidade sem técnicas directivas precisas, por outro pode levar a pensar que esta relativa flexibilidade os autoriza a conversarem de qualquer maneira com os interlocutores. Um outro problema é que a flexibilidade do método poder levar a acreditar numa completa espontaneidade do entrevistado e numa total neutralidade do investigador. As formulações do entrevistado estão sempre ligadas à relação específica que o liga ao entrevistador e este último só pode, portanto, interpretá-las validamente se as considerar como tais. A análise de uma entrevista deve, portanto, incluir uma elucidação daquilo que as perguntas do investigador, a relação de troca e o âmbito da entrevista induzem nas formulações do interlocutor. Considerar estes últimos independentemente de um contexto tão marcante seria revelar uma grande ingenuidade epistemológica (Quivy & Campenhoudt, 1992). COMPETENCIAS NECESSÁRIAS
Conhecimento teórico e prático elementar dos processos de comunicação e de interacção interindividual, formação prática nas técnicas de entrevista
A OBSERVAÇÃO DIRECTA
Métodos de investigação que capta os comportamentos no momento em que eles se produzem e em si mesmos, sem a mediação de um documento ou de um testemunho. O campo de observação do investigador é, em princípio, infinitamente, amplo e só depende, em definitivo, dos objectivos do seu trabalho e das suas hipóteses de partida. A partir delas, o acto de observar será estruturado, na maior parte dos casos, por uma grelha de observação previamente constituída.
Margarida Pocinho
Página 37
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
As modalidades concretas da observação em investigação social são muito diferentes, consoante o investigador adopte, por exemplo, um método de observação participante de tipo etnológico ou, pelo contrário, um método de observação não participante, cujos processos técnicos são muito formalizados. A observação participante de tipo etnológico é, logicamente, a que melhor responde, de modo global, às preocupações habituais dos investigadores em ciências sociais. Consiste em estudar uma comunidade durante um longo período, participando na vida colectiva. O investigador estuda então os seus modos de vida, de dentro e pormenorizadamente, esforçando-se por perturbá-los o menos possível. A validade do seu trabalho assenta, nomeadamente, na precisão e no rigor das observações, bem como no contínuo confronto entre as observações e as hipóteses interpretativas. O investigador estará particularmente atento à reprodução ou não dos fenómenos observados, bem como à convergência entre as diferentes informações obtidas, que devem ser sistematicamente delimitadas. É a partir de procedimentos deste tipo que as lógicas sociais e culturais dos grupos estudados poderão ser reveladas o mais claramente possível e que as hipóteses poderão ser testadas e afinadas (Quivy & Campenhoudt, 1992). Os métodos de observação não participante apresentam, por seu lado, perfis muito diferentes, sendo o seu único ponto comum o facto de o investigador não participar na vida do grupo, que, portanto, observa «do exterior». A observação tanto pode ser de longa como de curta duração, feita à revelia ou com o acordo das pessoas em questão, ou é ainda realizada com ou sem a ajuda de grelhas de observação pormenorizadas. Estas grelhas definem de modo muito selectivo as diferentes categorias de comportamentos a observar. As frequências e as distribuições das diferentes classes de comportamento podem então eventualmente ser calculadas para estudar as correlações entre estes comportamentos e outras variáveis destacadas pelas hipóteses. O método é particularmente adequado à análise do não verbal e daquilo que a revela: as condutas de instituídas e os códigos de comportamento, à relação com o corpo, os modos de vida e os traços culturais, a organização espacial dos grupos e da sociedade, etc. A autenticidade relativa dos acontecimentos em comparação com as palavras e com os escritos, já que é mais fácil mentir com a boca do que com o corpo (Quivy & Campenhoudt, 1992).
Margarida Pocinho
Página 38
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
As dificuldades deste método estão relacionadas quer com a aceitação do observador pelos grupos em questão, quer com o problema do registo. O investigador não pode confiar unicamente na sua recordação dos acontecimentos apreendidos «ao vivo», dado que a memória é selectiva e eliminaria uma grande variedade de comportamentos cuja importância não fosse imediatamente aparente. Como nem sempre é possível, nem desejável, tomar notas no próprio momento, a única solução consiste em transcrever os comportamentos observados imediatamente após a observação. Na prática, trata-se muitas vezes de uma tarefa muito pesada, devido à fadiga e as condições de trabalho por vezes esgotantes. O problema da interpretação das observações a utilização de grelhas de observação muito formalizadas facilita a interpretação, mas, em contra partida, esta arrisca-se a ser relativamente superficial e mecânica perante a riqueza e a cumplicidade dos processos estudados. A solução passa por usar este método como complemento de outros métodos, com procedimentos técnicos mais precisos, ou ainda, quando é possível, na colaboração de vários investigadores, o que confere uma certa intersubjectividade às observações e à sua interpretação.
Margarida Pocinho
Página 39
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
COMPETENCIAS NECESSÁRIAS
A única verdadeira formação em observação é a prática. Não bastam algumas semanas de trabalho para tornar mais perspicaz o olhar do perito. É necessário um confronto longo e sistemático entre a reflexão teórica inspirada na leitura dos bons autores, e os comportamentos observáveis na vida colectiva para produzir os observadores mais penetrantes.
RECOLHA DE DADOS PREEXISTENTES: DADOS SECUNDÁRIOS E DADOS DOCUMENTAIS
O investigador recolhe documentos por duas razões completamente diferentes. Ou tenciona estudá-los por si próprios, como quando examina a forma como um pedido de um exame de diagnóstico complementar influencia o auto-diagnóstico, ou espera encontrar neles informações úteis para estudar outro objecto, como, por exemplo, na investigação de dados estatísticos sobre o desemprego ou na busca de casos com tuberculose nos arquivos de um hospital. No primeiro caso, os problemas encontrados derivam da escolha do objecto de estudo ou da delimitação do campo de análise, e não dos métodos de recolha de informações propriamente ditos. Assim, apenas consideramos o segundo caso. É frequente, o trabalho de um investigador necessitar de dados macrossociais, que apenas organismos oficiais poderosos, como os institutos nacionais de estatística, têm condições para recolher. Aliás, se estes organismos existem, é principalmente para oferecerem aos responsáveis e aos investigadores dados abundantes e dignos de confiança que aqueles não poderiam recolher por si próprios. Por outro lado, as bibliotecas, os arquivos e os bancos de dados, sobre todas as suas formas, são ricos em dados que apenas esperam pela atenção dos investigadores. É, portanto, inútil consagrar grandes recursos para recolher aquilo que já existe, ainda que a apresentação dos dados possa não ser totalmente adequada e deva sofrer algumas adaptações (Quivy & Campenhoudt, 1992).
Margarida Pocinho
Página 40
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
O MÉTODO CLÍNICO
Pressupõe a colheita, análise e síntese dos dados ou observações, assim como formular e testar hipóteses, com o intuito de obter informação útil que será, depois, usada no processo de decisão aplicado a cada indivíduo. A todo esse processo, desde a colheita da informação até à decisão e discussão desta com o doente e o estabelecimento de um plano terapêutico, dá-se o nome de Método Clínico. Este, tal como o Método Científico na sua globalidade, tem evoluido ao longo do tempo e tem sido alvo de algumas controvérsias (Faculdade de Medicina da Universidade do Porto, 2000). O raciocínio clínico é um processo, ainda hoje, não totalmente compreendido. Sabe-se, porém, que ele tem por base múltiplos factores, como a experiência e a aprendizagem, o raciocínio dedutivo e indutivo, a interpretação de evidência científica, que é variável em reprodutibilidade e validade, e a intuição que é um aspecto difícil de definir. Com o objectivo de melhorar o raciocínio clínico, várias tentativas de análise quantitativa dos vários factores nele envolvidos têm sido feitas (ex: estudo dos processos cognitivos envolvidos no raciocínio clínico, criação de sistemas de apoio à decisão, etc). Embora estas tentativas tenham sido úteis no avanço da compreensão do raciocínio clínico, todas elas têm problemas teóricos ou práticos que limitam a sua aplicabilidade à prática clínica diária. Estas tentativas de aplicação do rigor e lógica inerentes ao método quantitativo têm, no entanto, proporcionado grandes avanços na compreensão do raciocínio clínico, e permitiram identificar modos de melhorar este processo, tornando-o mais eficaz e eficiente. Usando um modelo simplificado, pode descrever-se o Método Clínico como um processo dividido em pelo menos 3 fases.
HISTÓRIA CLÍNICA E EXAME FÍSICO
A primeira fase consiste na colheita da História Clínica, através de entrevista ou da consulta de processo clínico. A História Clínica deve incluir a seguinte informação: identificação do doente, motivo da consulta, história da doença actual, antecedentes pessoais, história social e ocupacional, antecedentes familiares e a revisão de sintomas por aparelhos e sistemas. Esta colheita de informação avança em função de um processo
Margarida Pocinho
Página 41
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
iterativo de formulação e refutação de hipóteses diagnósticas, que levam, na maior parte dos casos, a um diagnóstico correcto, já nesta fase. Ainda nesta primeira fase tem lugar a realização do Exame Físico ou análise do registo deste, com especial ênfase nos órgãos provavelmente envolvidos na doença actual. Este exame deve ser completo e sistematizado e é guiado pelas hipóteses formuladas na colheita da História Clínica. Esta primeira fase é muito importante pois é nesta fase que se devem obter, de forma rigorosa, completa, válida e precisa, os dados ou observações que estarão na base do raciocínio que levará à formulação do diagnóstico. Esta colheita de dados ou observações deve ser feita com "o rigor científico".
EXAMES AUXILIARES DE DIAGNÓSTICO
Numa segunda fase, analisa-se, se necessário, o conjunto de exames auxiliares do diagnóstico que julguem pertinentes para a verificação das possibilidades diagnósticas levantadas na fase anterior. O profissional deve conhecer, pormenorizadamente, as características operacionais de cada exame (sensibilidade, especificidade, valores preditivos e exactidão), as suas indicações específicas e os potenciais riscos e benefícios que a sua utilização tem (Faculdade de Medicina da Universidade do Porto, 2000).
TRIANGULAÇÃO DOS DADOS CLÍNICOS E DOS EXAMES AUXILIARES DE DIAGNÓSTICO
Numa terceira fase faz-se a integração da informação proveniente das várias fontes disponíveis (história clínica, exame físico e exames auxiliares de diagnóstico). Uma das formas de fazer esta integração da informação é usando um método quantitativo designado Análise Bayesiana. Este método permite, a partir do conhecimento da probabilidade de um indivíduo ter uma doença antes de um qualquer exame ser realizado (probabilidade pré-teste ou probabilidade antecedente), e tendo conhecimento sobre as características do exame (sensibilidade e especificidade), calcular a probabilidade de existência de doença após o conhecimento do resultado desse exame (probabilidade pós-teste ou probabilidade posterior). O modelo matemático que, provavelmente, mais se lhe adequa é o epidemiológico, mas chama-se a atenção para a importância do raciocínio clínico na sua compreensão. Margarida Pocinho
Página 42
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
PROCESSO DE ELABORAÇÃO DOS DADOS
Na ciência factual, os dados são passíveis de serem submetidos a testes (são testáveis ou contrastáveis) e corrigíveis, pelo que os dados científicos não são mais permanentes que as ideias, hipóteses e teorias com as quais são produzidos. Dados são evidências? A resposta é que toda evidência é um dado, mas nem todo dado é evidência. São evidências os dados que são relevantes para uma ideia, ou seja, os dados passam a ser evidência quando postos em relação com a hipótese formulada durante o planeamento da investigação. Daqui se entende a expressão “investigação cientifica baseada em evidencias” (Teixeira, 2001). O conjunto de dados obtidos a partir do experimento constitui o grupo de dados brutos. Os dados brutos podem conter qualquer informação. Há que refinar esses dados, com a finalidade de se dispor de informação relevante e de uso geral. O refinamento faz parte do processo de elaboração. Os seus estadios são: Standartização, normalização ou normatização: os dados precisam ser apresentados de acordo com critérios de aceitação geral (por exemplo, as unidades do Système internacional d'Unités para registro dos dados de exames de laboratório clínico); Exame crítico, na busca de erros de observação: de um lado, este exame obedece aos critérios estabelecidos pela própria disciplina a que se filia o experimento; por outro lado, os dados devem também ser examinados, criticamente, segundo considerações teóricas referentes aos erros de observação; Redução dos dados brutos às médias e à dispersão em torno das médias, com o que, ao invés de lidarmos com inúmeros valores, passamos a lidar com um enunciado único, que representa o conjunto todo; Análise de tabelas; projecção dos dados em gráficos para análise de tendências, descoberta de associações e de correlações, etc. “As questões deverão ser formuladas de tal maneira que a pesquisa em bases de dados se torne fácil e deverão ser divididas em grupos: questões sobre o doente, sobre a intervenção, sobre a comparação entre estratégias e sobre os resultados com interesse. A maioria das questões clínicas relacionam-se com perguntas sobre o tratamento, prognóstico, diagnóstico, riscos, economia, qualidade. No que respeita à procura da Margarida Pocinho
Página 43
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
evidência, não é prático (ou sempre necessário) que os clínicos identifiquem e assimilem criticamente toda a evidência relacionada a uma questão particular. O que é mais prático é procurar revisões bem-feitas, sistemáticas e correctamente conduzidas da literatura científica as quais se constituem, normalmente, como base de dados de revisões clínicas e são apresentadas de uma forma elegante e de fácil consulta. A pesquisa de bases de dados, tais como a Medline ou a Embase, pode ser completamente frustrante, devido à maneira como os artigos são posicionados. Se não se usarem estratégias selectivas de pesquisa para encontrar os artigos relacionados com as questões formuladas, mais vale não perder esse tempo. No que respeita a avaliação da evidência, após a identificação da evidência científica, torna-se necessário avaliar a sua validade e relevância. Existem vários guias que auxiliam a revisão da literatura médica, quer de uma forma genérica quer de uma forma especializada. Após se ter verificado a validade desta informação, será então necessário decidir se essa evidência é relevante para um doente particular. Ter, simplesmente, a evidência disponível não significa, necessariamente, que ela está em uso (…) PRATICA BASEADA EM EVIDENCIA
Implementar uma Prática Baseada em Evidencias (PBE) na prática clínica nem sempre é fácil mas, quando funciona, é muito recompensador. A experiência sugere que o processo se torna automático quando uma massa crítica dos médicos, enfermeiras e fisioterapeutas, audiologistas, radiologistas, cardiopneumologistas e outros técnicos de saúde são treinados e motivados para a sua aplicação. Uma maneira simples de começar este processo é através da implementação, junto dos alunos ou estagiários, das rotinas de revisão de artigos científicos a partir de um problema clínico concreto. Desde que correctamente facilitado será possível, numa hora, apresentar criticamente um artigo científico em pequenos grupos e discutir as suas implicações para a prática clínica. À medida que o grupo vá tendo algum treino neste tipo de reuniões será possível discutir mais do que um artigo por hora. As reuniões de discussão de casos clínicos funcionam como uma boa fonte, boa para a elaboração de questões. A implementação das indicações, protocolos de diagnóstico e tratamento, terá tanto mais êxito quanto maior for o envolvimento de todo a equipa de saúde neste formato de formação. A utilização deste modelo não só na formação pós-graduada, mas também na formação prégraduada constituirá um elemento decisivo para uma futura prática baseada na evidência. (…) Para os técnicos, esta prática permite-lhes estabelecer rotinas de desenvolvimento das Margarida Pocinho
Página 44
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
suas bases de conhecimento, aumentar a compreensão dos métodos de pesquisa e promover a crítica sobre o uso desses dados, aumentar a confiança nos processos de tomada de decisão, aumentar a literacia informática e as técnicas de pesquisa de dados, melhorar os hábitos de leitura. Para as equipas terapêuticas propicia uma estrutura para a resolução de problemas e para a formação, permitindo aos mais novos uma contribuição útil para a equipa. Para os doentes assegura um uso mais eficaz dos recursos e uma melhor comunicação com eles sobre o racional subjacente às tomadas de decisão” (Teixeira, 2001, p. 7).
ESTUDO PILOTO Antes da execução da experiência definitiva, um experimento praticamente idêntico a esta, preliminar e exploratório, é usualmente realizado; ele é denominado estudo piloto. O estudo piloto é útil em vários aspectos da investigação, orientando o pesquisador quanto à constituição dos grupos de estudo, às características da solução desejada, à adequação das técnicas utilizadas e à exequibilidade da pesquisa.
ESTRATÉGIAS ESTATISTICAS DE ANÁLISE DE DADOS A maioria dos investigadores principiantes enfrenta sérias dificuldades quando tem de usar a análise estatística. É apontado como prováveis causas o ensino de Estatística que, frequentemente, tem um enfoque matemático ou de receita que não conduzem ao aproveitamento desta ferramenta e o consequente despoletar de uma “ansiedade matemática”, que pode levar os estudantes a evitar o seu uso. Essa situação conduz, não raras vezes, à dependência de outros para seleccionar a estatística adequada ao seu projecto. O objetivo desta lição é ajudar a ter uma idéia da potencialidade da estatística apropriada a sua pesquisa. Primeiro examine seu estudo, identifique o que quer com sua análise estatística, devendo, para isso, especificar claramente as várias questões a que quer que sua análise estatística responda (conhecer a associação ou verificar as diferenças). Comece por escrever as suas questões de pesquisa e hipóteses. Depois identifique a variável dependente e independente bem como os seus níveis de mensuração. Apos estar na
Margarida Pocinho
Página 45
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
posse dessa informação consulte a figura que se segue e vai ver que tudo começa a ficar mais fácil.
FIGURA 6: IDENTIFICAR OS TESTES ESTATISTICOS
Como segundo passo na escolha da estatística apropriada, verifique se sua variável dependente é adequada para a estatística paramétrica. A estatística paramétrica envolve pelo menos dois pressupostos iniciais: o primeiro é se a variável dependente segue uma distribuição normal e, o segundo, é se os dados entre diferentes sujeitos são independentes ou emparelhados/relacionados. Portanto, uma variável dependente qualitativa ou categórica não se enquadra neste tipo de estatística, devendo usar o enfoque da estatística não paramétrica.
Margarida Pocinho
Página 46
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira Assim
recorremos
a
estatística
paramétrica
quando
analisamos
Lições
variáveis
dependentes contínuas. Se essas variáveis violam os pressupostos e não tem como corrigir essa violação, então deve utilizar a estatística não paramétrica. Só tem duas opções: ou aprende a lidar com a Estatística não paramétrica ou então aumenta o tamanho da amostra. Examine cada variável dependente uma por uma nesse processo. Nem todas terão as mesmas características. Um erro comum, por exemplo, é assumir que pode usar sempre o mesmo teste estatístico se os grupos experimentais são equivalente em idade, género, anos de estudos e outras variáveis demográficas. Idade e anos de estudo são duas variáveis geralmente analisadas com estatística paramétrica. O género e a etnia são variáveis nominais e por isto devem ser analisadas com Estatística não paramétrica. Definir quais as estratégias estatísticas a utilizar exige o conhecimento das lições anteriores. As mais robustas estratégias estatísticas exigem que as variáveis apresentem propriedades intervalares para que sejam obtidos resultados fidedignos. Contudo na investigação com seres humanos nem sempre é possível termos variáveis quantitativas, por isso para cada teste estatístico paramétrico existe um equivalente não paramétrico mas destes últimos existem vários que não tem equivalente paramétrico. Por exemplo se tanto a nossa variável dependente (VD) quanto a independente (VI) forem nominais e quisermos conhecer a associação entre elas podemos recorrer ao quiquadrado (x2) da independência; se ambas forem ordinais podemos recorrer ao rho de spearman mas se forem quantitativas e cumprirem com os restantes pré-requisitos da estatistica paramétrica (simétricas, mesocurticas e distribuição normal) podemos utilizar o teste r de Pearson. Se em vez de querermos ver umas associação ou correlação pretendermos verificar se existem diferenças na distribuição de uma variável (VD) em função de outra com nivel de mensuração nominal e dicotómica (VI) então podemos utilizar o teste t de Student para amostras independentes (caso estejam cumpridos os prerequisitos impostos à VD ié, quantitativa, simétrica e apresente distribuição aproximadamente normal) ou o seu equivalente não paramétrico u de Mann-Whitney (caso não estejam cumpridos os prérequisitos da estatistica paramétrica mas a VD tenha um nivel de mensuração no minimo ordinal).
Margarida Pocinho
Página 47
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
Se a figura anterior não o deixou muito esclarecido experimente consultar o quadro que se segue. Otestes estatísticos paramétricos estão assinados com um asterisco (*) QUADRO 1: GRELHA DE DECISÃO DOS TESTES
Testes para uma amostra
NIVEIS DE MENSURAÇÃO Ordinal
Nominal TESTE DE QUI-QUADRADO DA ADERÊNCIA
TESTE DE KOLMOROGOV-SMIRNOV
Quantitativa -TESTE DE KOLMOROGOV-SMIRNOV -TESTE T PARA UMA AMOSTRA *
Variáveis Independentes Qualitativas Nominal/ dicotomica
Quantitativa Ordinal/ Grupo
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
Nominal
KAPPA DE COHEN
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
MACNEMAR
Variáveis Dependentes
Q DE COCHRAN
Ordinal
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
RHO DE SPEARMAN
TESTE DE U DE MANN-WHITNEY
W DE WILCOXON; FRIEDMAN
TESTE DE H DE KRUSKAL-WALLIS
KAPPA DE COHEN
RHO DE SPEARMAN
MACNEMAR TESTE DE QUI-QUADRADO DA INDEPENDENCIA
Quantitativa
TESTE T DE STUDENT PARA DADOS INDEPENDENTES *
TESTE T DE STUDENT PARA N EMPARELHADOS *
TESTE DE U DE MANN-WHITNEY TESTE ANOVA DE UM CRITÉRIO E RESPECTIVO POSTHOC *
W DE WILCOXON RHO DE SPEARMAN
R DE PEARSON * RHO DE SPEARMAN
TESTE DE H DE KRUSKAL-WALLIS e U POR GRUPO
TESTE ANOVA PARA MEDIDAS REPETIDAS * TESTE FRIEDMAN
Margarida Pocinho
Página 48
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
Supondo que suas variáveis dependentes tivessem uma distribuição normal ou que sua amostra fosse suficientemente grande, deve verificar todas as possibilidades de análise: univariada , bivariada, múltipla e multivariada, se for o caso. A análise univariada é quando a variável é analisada per se, análise bivariada quando uma variável dependente é relacionada com uma única variável independente, análise múltipla quando se analisa uma variável dependente em função de várias variáveis independentes, e análise multivariada, quando se analisa várias variáveis dependentes contínuas em função de variáveis independentes categóricas ou quando se analisa a estrutura das variáveis, visando a redução do número de variáveis. O quadro anterior não esgota as analises estatísticas, aliás existem outras tantas quantas as que apresentamos aqui, contudo mostra as mais utilizadas nas análises univariadas e bivariadas. “As técnicas utilizadas na avaliação psicológica têm provocado questionamentos nas comunidades científicas e profissionais brasileiras, tanto no que se refere à qualidade dos instrumentos, de maneira geral, ao uso que os psicólogos fazem dos instrumentos, bem como em relação à validade geral dos resultados da avaliação psicológica. O presente trabalho teve como objetivo identificar as principais informações psicométricas a respeito dos instrumentos psicológicos presentes em seus manuais, tais como editora, data de publicação, variável medida, padronização, validade e precisão” (Noronha, Primi, & Alchieri, 2004, p. 1). Existe, também, um conjunto de técnicas estatísticas comummente utilizadas na avaliação das qualidades psicometricas das escalas. No quadro 2, nas colunas da direita (tipo de estatísticas) podem observar-se as estatísticas mais utilizadas para verificar os fenómenos descritos na primeira coluna.
Margarida Pocinho
Página 49
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
QUADRO 2: GRELHA DE DECISÃO DOS TESTES PSICOMÉTRICOS Tipo de estatisticas Descritivas
Análises Bivariadas
Para verificar a consistência temporal entre dois itens
Número de casos válidos, média e desvios padrão no caso das variáveis quantitativas e frequências e percentagens no caso das qualitativas
Pearson, Kappa de Cohen ou Spearman dependendo do nível de mensuração
Fornecer modelos matemáticos para a explicação de teorias cognitivas e comportamentais
Número de casos válidos, média e desvios padrão
Não se aplica
Estudo da dimensionalidade e redução de variáveis
Número de casos válidos, média e desvios padrão
Não se aplica
Estudo da relação entre itens;
Número de casos válidos, média e desvios padrão
Identificar itens problemáticos (consistência interna; reprodutibiliade, etc)
Margarida Pocinho
Coeficiente de correlação interitem e intraclass
Outras análises mais robustas
Matriz de correlação e respectivos niveis de significancia; Matriz determinante e inversa; Matriz anti imagem; Solução factorial inicial com as respectivas comunalidades, valores próprios e variancia explicada; Medidas de adequação da amostra de Kaiser-Meyer-Olkin e de esfericidade de Bartlett's test; Matriz factorial não rodada incluindo pesos factoriais, comunalidades e valores próprios; solução factorial rodada incluindo padrão de rotação e matriz de transformação. No caso das rotações oblíquas para além do padrão de rotação é necessária a matriz da estrutura, a matriz dos coeficientes factoriais e a matriz da coovariancia. Para além das estatísticas referidas, são úteis os gráficos: scree plot dos valores próprios e loading plot dos primeiros factores.
Hotelling's T-square para a igualdade das médias e Teste de aditividade; Tukey's; Estimativas de fidedignidade [Alpha de Cronbach (baseado na correlação média inter-item): metade-metade de spearman-brown (split-half); Guttman (limite inferior de fidedignidade); modelo paralelo para variâncias iguais e para a igualdade das medias; ANOVA (no caso de dados ordinais Friedman’s chi-square e coeficiente de concordância de Kendall e no caso de dados dicotómicos a estatística Q de Cochran)]
Página 50
Copyright International Test Commission © 1999.
1
10-10-2013
Bibliografia Aiken, L. R. (1982). Psychological testing and assessment (4.ª edição ed.). Boston: Allier & Bacon, Inc. Alferes, V. R. (2008, 08 21). Psicometria: Análise da consistência interna de Escalas Somativas Dicotómicas. Retrieved 02 06, 2009, from SPSS: Programas e rotinas
complementares
(syntax
files):
http://www.fpce.uc.pt/niips/spss_prc/psicom/kr_20_21/kr_20_21.htm American Psychological Association. (1985). Standards for educational and psychological testing. Washington: American Psychological Association, Inc. Anastasi, A. (1977). Testes psicológicos ( 2ª edição ed.). São Paulo: Editora Pedagógica e Universitária Lda. Anastasi, A. (1988). Psychological testing. New York: Macmillan Publishing Company. Borsboom, D., Van-Heerden, J., & Mellenbergh, G. J. (2003). Validity and truth. Internal Report. Bryant, F. B. (2000). Assessing the validity of measurement. In L. G. (Orgs.), Reading and understanding more multivariate statistics (pp. 99-146). Washington: American Psychological Association. Bryman, A., & Cramer, D. (2003). Análise de dados em ciências sociais. Introdução às técnicas utilizando o SPSS para windows (3ª Edição ed.). Oeiras: Celta. Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, pp. 81-105. Cronbach, L. .., & Meehl, P. (1955). Construct validity in psychological tests. Psychological Bulletin, 4, pp. 281-302. Cronbach, L. J. (1949). Essentials of psychological testing. Eco, U. (2002). Como se faz uma tese em ciências humanas (9 ed.). Lisboa: Editorial Presença. Emory, C. (1985). Business research methods The Irwin Series in Information and Decision Sciences ( 3ª edição ed.). Illinois: Homewood.
Copyright International Test Commission © 1999.
2
10-10-2013
Faculdade de Medicina da Universidade do Porto. (2000). Medicina e Ciência - Do Método Científico ao Método Clínico. (Serviço de Bioestatística e Informática Médica) Retrieved Fevereiro 9, 2009, from MedStatWeb: um curso de estatistica
médica
na
Web:
http://stat2.med.up.pt/cursop/print_script.php3?capitulo=medicina_ciencia&nu mero=6&titulo=Medicina%20e%20Ci%C3%83%C2%AAncia Freeman, F. (1980). Teoria e Prática dos Testes Psicológicos (2ª Edição ed.). Lisboa: Fundação Calouste Gulbenkian. Golden, C. J., Sawicki, R. F., & Franzen, M. D. (1984). Test construction. In M. H. G. Goldstein, Handbook of psychological Assessment. New York: Pergaman Press. Guilford, J. P. (1946). New standards for test evaluation. Educational and Psychological Measurement,, pp. 427-439. Gulliksen, H. (1950). Intrinsic validity. American Psychologist, pp. 511-517. Haynes, S. N., Richard, D. C., & Kubany, E. S. (1995). Content validity in psychological assessment: A functional approach to concepts and methods. Psychological Assessment, 3, pp. 238-247. ITC-International Test Commission. (2008). International Test Commission Guidelines Index. Retrieved Fevereiro 09, 2010, from International Test Commission: http://www.intestcom.org/guidelines/index.php Janis, I. L. (1965). The problem of validating content analysis. In N. L. H. D. Lasswell, Language of politics. Cambridge: MIT Press. Kline, P. (1987). A handbook of test construction: Introduction to psychometric design. London: Routledge Kegan & Paul. LAP- Laboratório de Avaliação Psicológica. (2007). Introdução à Psicometria (curso on-line). Retrieved Janeiro 5, 2010, from LAP- Laboratório de Avaliação Psicológica: http://www.lap-am.org/ativ_concluida1.html Marx, R., Bombardier, C., Hogg-Johnson, S., & Wright, J. (1999, Fevereiro). Clinimetric and Psychometric Strategies for Development of a Health Measurement Scale. Jourrnal of Clinical Epidemiology, 52 (2), pp. 105-111.
Copyright International Test Commission © 1999.
3
10-10-2013
Matos, M. (1994, Janeiro). Normas para apresentação de dissertações: Bases Essenciais. Retrieved Janeiro 2009, from paginas.fe.up.pt/~mam/normas.pdf Messick, S. (1989). Validity. Em R. Linn (Org.), Educational measurement (3ª Edição ed.). New York: American Council on Education and Macmillan Publishing Company. Mosier, C. (1947). A critical examination of the concepts of face validity. Educational and Psychological Measurement, 7, pp. 191-205. Mosier, C. (1951). Problems and designs of cross-validation. Educational and Psychological Measurement, 11, pp. 5-12. Noronha, A. P., Primi, R., & Alchieri, J. C. (2004, Dezembro). Psychometrics parameters: an analysis of the psychological tests commercialized in Brazil. Psicologia: ciência e profissão, 24(4), pp. 88-89. Nunnally, J. C. (1978). Tests and measurements. New York: McGraw-Hill. Pasquali, L. (2007). Validade dos Testes Psicológicos: Será Possível Reencontrar o Caminho? Psicologia Teoria e Pesquisa, 23, pp. 099-107. Passarelli, B. (1995). Teoria das Múltiplas Inteligências aliada à Multimídia na Educação: Novos Rumos Para o Conhecimento. Retrieved 02 17, 2009, from http://www.futuro.usp.br/producao_cientifica/artigos/multiplasintelig.pdf Pocinho, M. T. (2007). Factores socioculturais, depressão e suicidio no idoso alentejano. Tese de Doutoramento, ICBAS, Ciências Biomédicas, Porto. Prieto, G., & Muñiz, J. (2000, Novembro). Un modelo para evaluar la calidad de los tests utilizados en España. Retrieved Fevereiro 02, 2009, from Papeles del Psicólogo: http://www.cop.es/tests/modelo.htm. Quivy, R., & Campenhoudt, L. V. ( 1992). Manual de Investigação em Ciências Sociais. Lisboa: Gradiva. Teixeira, J. M. (2001). Medicina baseada na evidência. Saúde Mental, III(Editorial), pp. 5-8. Weber, R. P. (1990). Basic content analysis (2.ª Edição ed.). Newbury Park: Sage Publications.
Copyright International Test Commission © 1999.
4
10-10-2013
White, E., Armstrong, B., & Saracci, R. (1992). Principles of Exposure Measurement in Epidemiology. New York: Oxford University Press. Wright, J. G., & Feinstein, A. (1992). A comparative contrast of clinimetric and psychometric methods for constructing indexes and rating scales. Journal Clinical Epidemiology, 45, 1201-1218.
Copyright International Test Commission © 1999.
5
10-10-2013
ANEXOS:
Copyright International Test Commission © 1999.
6
10-10-2013
INTERNATIONAL TEST COMMISSION
INTERNATIONAL TEST COMMISSION
INTERNATIONAL GUIDELINES FOR TEST USE
Version 2000
Copyright International Test Commission © 1999.
7
10-10-2013
The Council of the International Test Commission (ITC) formally adopted the Guidelines at its June 1999 meeting in Graz, Austria.
The European Federation of Professional Psychologists Associations’ Task Force on Tests and Testing also endorsed the Guidelines at its July 1999 meeting in Rome.
The Guidelines were officially published at the General Meeting of the ITC on 24 July, 2000 in Stockholm. The Guidelines are copyright of the ITC, 1999. The ITC is a non-stock corporation incorporated in the USA.
For further information on the ITC or for permission to quote from or reproduce the contents of this document, please contact the Secretary of the ITC: Prof Jacques Grégoire, ITC Secretary, Université catholique de Louvain, Faculté de Psychologie, Place du Cardinal Mercier, 10, 1348 Louvain-la-Neuve, Belgium. Email:
[email protected]
For further information regarding the Guidelines, contact: Prof Dave Bartram, ITC President, SHL Group plc, The Pavilion, 1 Atwell Place, Thames Ditton, KT7 0NE, Surrey, England. Email:
[email protected]
Copyright International Test Commission © 1999.
8
10-10-2013
See also the ITC website (from which copies of the Guidelines can be obtained): http://www.intestcom.org
Contents Acknowledgements 11 Introduction and background 13 The need for international Guidelines Development of the Guidelines The Guidelines
13
15
19
Key purpose 19 Scope of the Guidelines
19
Who the Guidelines are for 21 Contextual factors
22
Knowledge, Understanding, and Skill
23
1
Take responsibility for ethical test use
27
1.1
Act in a professional and ethical manner
27
1.2
Ensure they have the competence to use tests
1.3
Take responsibility for their use of tests
1.4
Ensure that test materials are kept securely 28
1.5
Ensure that test results are treated confidentially.
2
Follow good practice in the use of tests
2.1
Evaluate the potential utility of testing in an assessment situation 30
2.2
Choose technically sound tests appropriate for the situation
2.3
Give due consideration to issues of fairness in testing
2.4
Make necessary preparations for the testing session 33
2.5
Administer the tests properly 34
Copyright International Test Commission © 1999.
9
27
28
29
30
30
31
10-10-2013
2.6
Score and analyse test results accurately
2.7
Interpret results appropriately
2.8
Communicate the results clearly and accurately to relevant others 37
2.9
Review the appropriateness of the test and its use 38
References
35
36
39
Appendix A: Guidelines for an outline policy on testing.
41
Appendix B: Guidelines for developing contracts between parties involved in the testing process.
43
Appendix C: Points to consider when making arrangements for testing people with disabilities or impairments
46
Appendix D. Conditions governing the translation of the ITC Guidelines on Test Use. 49
Copyright International Test Commission © 1999.
10
10-10-2013
Acknowledgements
The Guidelines were prepared for the ITC Council by Professor Dave Bartram. The author is grateful for the assistance provided by Iain Coyne in the execution of this project and is grateful to the following individuals who took part in the 1997 Dublin workshop and who provided such valuable input to the development of the present Guidelines. Ms Dusica Boben, Produktivnost, SLOVENIA; Mr Eugene Burke, British Psychological Society, England; Dr Wayne Camara, The College Board, USA; Mr Jean-Louis Chabot, ANOP, FRANCE; Mr Iain Coyne, University of Hull, England; Dr Riet Dekker, Swets and Zeitlinger, Netherlands; Dr Lorraine Eyde, US Office of Personnel Management, USA; Prof Rocio Fernandez-Ballesteros, EAPA, SpAIN; Mr Ian Florance, NFER-NELSON, England; Prof Cheryl Foxcroft, Test Commission of South Africa, South Africa; Dr John Fremer, The College Board, USA; Ms Kathia Glabeke, Commissie Psychodiagnostiek, BELGIUM; Prof Ron Hambleton, University of Massachusetts at Amherst, USA; Dr Karin Havenga, Test Commission of South Africa, South Africa; Dr Jurgen Hogrefe, Hogrefe & Huber Verlagsgruppe, Germany; Mr Ralf Horn, Swets and Zeitlinger, Germany; Mr Leif Ter Laak, Saville and Holdsworth Ltd, England; Dr Pat Lindley, British Psychological Society, England; Mr Reginald Lombard, Test Commission of South Africa, South Africa; Prof Jose Muniz, Spanish Psychological Association, Spain; Copyright International Test Commission © 1999.
11
10-10-2013
Ms Gill Nyfield, Saville & Holdsworth Ltd, England; Dr Torleiv Odland, Norsk Psykologforening, Norway; Ms Berit Sander, Danish Psychologists’ Association,DENMARK; Prof Francois Stoll, Federation Suisse des Psychologues, Switzerland.
The author is also grateful to the many other individuals and organisations who provided feedback during the various stages of consultation and in conference presentations.
Copyright International Test Commission © 1999.
12
10-10-2013
Introduction and background
The need for international Guidelines
The focus of the International Test Commission (ITC) project is on guidelines for good test use and for encouraging best practice in assessment. The work so far carried out by the ITC to promote good practice in test adaptations (Hambleton, 1994; Van de Vijver, F. & Hambleton, R., 1996) is an important step towards assuring uniformity in the quality of tests adapted for use across different cultures and languages. At its meeting in Athens in 1995, the ITC Council accepted a proposal to broaden this concern to include guidelines on the fair and ethical use of tests, from which standards for training and specifying the competence of test users could be derived.
There are a number of reasons why guidelines on test use are needed at an international level. Countries differ greatly in the degree, if any, of statutory control they can exercise over the use of testing and its consequences for those tested. Some national professional societies have statutory registration of psychologists, others do not; some have mechanisms for the control of standards of test use by non-psychologists, others do not. The existence of a set of internationally-accepted guidelines would provide national psychological associations and other relevant professional bodies and organisations with a degree of support in the endeavours of such organisations to develop standards in countries where such standards are currently either lacking in some respect or non-existent. Patterns of access, in terms of the rights to purchase or use test materials, vary greatly from country to country. In some countries, access is restricted to psychologists, in others to users registered with formally approved national test distributors, in yet others, test users may be free to obtain materials without restriction from suppliers in their country or directly from suppliers abroad.
Copyright International Test Commission © 1999.
13
10-10-2013
A number of well-known instruments have appeared on the Internet in violation of copyright, without acknowledgement of the test authors or publishers, and without regard to issues of test security. Within the occupational testing arena, the greater international mobility of labour has increased the demand for tests to be used on job applicants from a number of different countries - often with the tests being administered in one country on behalf of a potential employer in another country. Development work is being carried out in the USA and in the UK on the use of Internet for distance- or remote-assessment in both occupational and educational settings. This raises a whole host of issues relating to standards of administration and control over the testing process, including test security.
Aim and objectives
The long-term aim of this project includes the production of a set of guidelines that relate to the competencies (knowledge, skills, abilities and other personal characteristics) needed by test users. These competencies are specified in terms of assessable performance criteria. These criteria provide the basis for developing specifications of the evidence of competence that would be expected from someone seeking qualification as a test user. Such competencies need to cover such issues as: professional and ethical standards in testing, rights of the test taker and other parties involved in the testing process, choice and evaluation of alternative tests, test administration, scoring and interpretation, report writing and feedback.
Insofar as they directly relate to test use, the Guidelines also have implications for: standards for test construction, standards for user-documentation - e.g., technical and user manuals, Copyright International Test Commission © 1999.
14
10-10-2013
standards for regulating the supply and availability of tests and information about tests.
The present Guidelines represent the work of specialists in psychological and educational testing (i.e. psychologists, psychometricians, test publishers and test developers) drawn from a number of countries. The intention of this document is not to ‘invent’ new guidelines, but to draw together the common threads that run through existing guidelines, codes of practice, standards and other relevant documents, and to create a coherent structure within which they can be understood and used. Development of the Guidelines
The Guidelines should be considered as benchmarks against which existing local standards can be compared for coverage and international consistency. By using the Guidelines as benchmarks or the basis from which to develop locally applicable documents (e.g. standards, codes of practice, statements on test taker rights), a high level of consistency across national boundaries will be promoted.
Work on the Guidelines began by drawing together materials concerned with test standards, codes of practice, test use, etc., from a number of countries3. While drawing on all of these sources, the present Guidelines have been particularly influenced by: The Australian Psychological Society (APS) Supplement to guidelines on the use of Psychological Tests (Kendall et al., 1997). The British Psychological Society (BPS) Level A and Level B standards for occupational test use (Bartram, 1995, 1996). The American Educational Research Association (AERA) , American Psychological Association (APA), & National Council on Measurement in Education (NCME) (1985) Standards for educational and psychological testing.
3
A list of all the materials that informed this process is available on request from the authors.
Copyright International Test Commission © 1999.
15
10-10-2013
American Association for Counseling and Development (AACD) Responsibilities of Users of Standardized Tests (Schafer, W.D, 1992). The CPA (Canadian Psychological Association, 1987) Guidelines for Educational and Psychological Testing. The APS document has been particularly valuable as it pulls together much of what is contained in the BPS and American publications as well as drawing on South African National Institute for Psychological Research (NIPR) publications and various publishers’ guidance for test users. It also embodies much of what has come out of Joint Committee on Testing Practices (JCTP) Test User Qualifications Working Group’s (TUQWG) seminal work on a data-based approach to promoting good test use (e.g., Eyde et al, 1988, 1993; Moreland et al., 1995), and the work of the JCTP on the Code of Fair Testing Practices in Education (JCTP, 1988; Fremer, Diamond, & Camara, 1989). Appendix B drew from the more recent work of the JCTP (JCTP, 2000) on test taker rights and responsibilities.
The content of the primary sources was analysed and statements categorised under 14 main headings. Where appropriate single statements were written to capture the common meaning of a number of statements from different sources. Statements were also modified in format such that they provided completion of a common stem (e.g.: “Competent test users will endeavour to....”, or “Competent test users can....”).
This initial structure of 14 main sections and their content was embodied in the first draft Framework Document. This formed the material for an international workshop held in Dublin in July 1997. The purpose of the ITC Workshop was to consider and critically evaluate all aspects of a framework document, with a view to producing a draft set of guidelines that would have international currency and acceptance. During the workshop, the Framework Document was examined in detail, with refinements being proposed in terms of form, structure and content. Following the workshop, the document was extensively revised (Version 2.0) and circulated to all those who attended for comment. A draft consultation document (Version 3.1) was prepared that incorporated all the comments and suggestions submitted regarding Version 2.0.
Copyright International Test Commission © 1999.
16
10-10-2013
Copies of the Version 3.1 consultation document and a structured response form were widely circulated to key individuals and organisations for comment. A total of 200 were distributed. A total of 28 detailed responses were received including ‘corporate’ responses from the APA, the BPS and some other European professional associations. In the summer of 1998 the Guidelines were revised in the light of these comments, and 200 copies (Version 4.1) were sent out for further consultation. A total of 18 formal responses were received to this second round of consultation. In addition, supportive informal comments were provided by many recipients of the consultation documents by email or in meetings.
In producing the current version of the Guidelines (Version 2000), every effort has been made to take account of all these responses. Without exception, the responses were helpful and constructive.4
These Guidelines are to be seen as supportive rather than constraining. We need to ensure that the Guidelines embody universal key principles of good test use, without attempting to impose uniformity on legitimate differences in function and practice between countries or between areas of application.
The proposed structure differentiates three main aspects of competence: Professional and ethical standards of good practice that affect the way in which the process of testing is carried out and the way in which test users interact with others involved in the process. The knowledge, understanding and skills relating to the process of testing: what test users need to be able to do.
4
A detailed report on the results of the first consultation was submitted to the ITC Council meeting in
August, 1998. A report on the second consultation together with Version 5.0 of the Guidelines was submitted to the ITC Council when it met in June 1999. Version 2000 contains some minor editorial amendments to Version 5.0. Copyright International Test Commission © 1999.
17
10-10-2013
The knowledge and understanding that are necessary to inform and underpin the process of testing. These three components differ, yet are inextricably inter-twined in practice. The Guidelines start from a key purpose. This can be characterised as the ‘mission statement’ for test users. It provides the focus from which the guidelines are developed. Each guideline defines an aspect of test user competence that contributes to the key purpose.
Together with the key purpose, the scope statement describes to whom the Guidelines apply, the forms of assessment to which they relate, and the assessment contexts.
This document contains: Key purpose and scope statements. Specifications of test user competencies in relation to ethical test use. Specifications of test user competencies in relation to good practice in the use of tests.
Copyright International Test Commission © 1999.
18
10-10-2013
The Guidelines Key purpose
A competent test user will use tests appropriately, professionally, and in an ethical manner, paying due regard to the needs and rights of those involved in the testing process, the reasons for testing, and the broader context in which the testing takes place.
This outcome will be achieved by ensuring that the test user has the necessary competencies to carry out the testing process, and the knowledge and understanding of tests and test use that inform and underpin this process.
Scope of the Guidelines
Any attempt to provide a precise definition of a ‘test’ or of ‘testing’ as a process, is likely to fail as it will tend to exclude some procedures that should be included and include others that should be excluded. For the purpose of these Guidelines, the terms ‘test’ and ‘testing’ should be interpreted broadly. Whether an assessment procedure is labelled a ‘test’ or not is immaterial. These Guidelines will be relevant for many assessment procedures that are not called ‘tests’ or that seek to avoid the designation ‘test’. Rather than provide a single definition, the following statements attempt to map out the domain covered by the Guidelines.
Testing includes a wide range of procedures for use in psychological, occupational and educational assessment. Testing may include procedures for the measurement of both normal and abnormal or dysfunctional behaviours. Testing procedures are normally designed to be administered under carefully controlled or standardised conditions that embody systematic scoring protocols.
Copyright International Test Commission © 1999.
19
10-10-2013
These procedures provide measures of performance and involve the drawing of inferences from samples of behaviour. They also include procedures that may result in the qualitative classification or ordering of people (e.g., in terms of type). Any procedure used for ‘testing’, in the above sense, should be regarded as a ‘test’, regardless of its mode of administration; regardless of whether it was developed by a professional test developer; and regardless of whether it involves sets of questions, or requires the performance of tasks or operations (e.g., work samples, psycho-motor tracking tests).
Tests should be supported by evidence of reliability and validity for their intended purpose. Evidence should be provided to support the inferences that may be drawn from the scores on the test. This evidence should be accessible to the test user and available for independent scrutiny and evaluation. Where important evidence is contained in technical reports that are difficult to access, fully referenced synopses should be provided by the test distributor.
The test use Guidelines presented here should be considered as applying to all such procedures, whether or not they are labelled as ‘psychological tests’ or ‘educational tests’ and whether or not they are adequately supported by accessible technical evidence.
Many of these Guidelines will apply also to other assessment procedures that lie outside the domain of ‘tests’. They may be relevant for any assessment procedure that is used in situations where the assessment of people has a serious and meaningful intent and which, if misused, may result in personal loss or psychological distress (for example, job selection interviews, job performance appraisals, diagnostic assessment of learning support needs).
The Guidelines do not apply to the use of materials that may have a superficial resemblance to tests, but which all participants recognise are intended to be used only Copyright International Test Commission © 1999.
20
10-10-2013
for purposes of amusement or entertainment (e.g., life-style inventories in magazines or newspapers).
Who the Guidelines are for
The Guidelines apply to the use of tests in professional practice. As such they are directed primarily towards: The purchasers and holders of test materials; Those responsible for selecting tests and determining the use to which tests will be put; Those who administer, score or interpret tests;
Those who provide advice to others on the basis of test results (e.g., recruitment consultants, educational and career counsellors, trainers, succession planners); Those concerned with the process of reporting test results and providing feedback to people who have been tested.
The Guidelines will be of relevance to others involved in the use of tests as defined above. These include: the developers of tests, the suppliers of tests, those involved in the training of test users, those who take tests and their relevant others (e.g., parents, spouses, partners), professional bodies and other associations with an interest in the use of psychological and educational testing, and policy makers and legislators.
Copyright International Test Commission © 1999.
21
10-10-2013
While aimed primarily at professional practice, most aspects of the good practice embodied in the Guidelines will also be of relevance to those who use tests solely for research purposes.
The Guidelines are not intended to cover every type of assessment technique (e.g., unstructured or semi-structured interviews, assessed group activities) or every situation in which assessment occurs (e.g., employment assessment centres). Yet many of the Guidelines are likely to be applicable in assessment situations and for purposes more general than those concerned primarily with psychological and educational testing (for example, the use of assessment centres for employmee placement or selection, semi-structured and structured interviews, or assessment for selection, career guidance and counselling). Contextual factors
The Guidelines are applicable internationally. They may be used to develop specific local standards through a process of contextualisation. It is recognised that there are many factors which affect how standards may be managed and realised in practice. These contextual factors have to be considered at the local level when interpreting the Guidelines and defining what they would mean in practice within any particular setting.
The factors that need to be considered in turning Guidelines into specific standards include: social, political, institutional, linguistic, and cultural differences between assessment settings; the laws of the country in which testing is taking place; existing national guidelines and performance standards set by professional psychological societies and associations; differences relating to individual versus group assessment;
Copyright International Test Commission © 1999.
22
10-10-2013
differences related to the test setting (educational, clinical, work-related and other assessment); who the primary recipients of the test results are (e.g., the test-takers, their parents or guardian, the test-developer, an employer or other third party); differences relating to the use of test results (e.g., for decision-making, as in selection screening, or for providing information to support guidance or counselling); and variations in the degree to which the situation provides opportunity for the accuracy of interpretations to be checked in the light of subsequent information and amended if needed.
Knowledge, Understanding, and Skill
Knowledge, understanding and skill underpin all the test user competencies. The nature of their content and level of detail are likely to vary between countries, areas of application and as a function of the level of competence required to use a test.
The Guidelines do not contain detailed descriptions of these. However, when applying the Guidelines for use in specific situations the relevant knowledge, skills, abilities and other personal characteristics will need to be specified. This specification is part of the process of contextualisation, through which generic guidelines are developed into specific standards. The main areas descriptions of knowledge, understanding and skills need to cover include the following.
Relevant declarative knowledge. This includes: knowledge of basic psychometric principles and procedures, and the technical requirements of tests (e.g., reliability, validity, standardisation);
Copyright International Test Commission © 1999.
23
10-10-2013
knowledge of tests and measurement sufficient to enable the proper understanding of test results; knowledge and understanding of relevant theories and models of ability, of personality or other psychological constructs, or of psychopathology, as necessary to properly inform the choice of tests and the interpretation of test results; and knowledge of the tests and the test suppliers relevant to one’s area of practice.
Instrumental knowledge and skills These include: knowledge and skills relating to specific assessment procedures or instruments, including the use of computer-based assessment procedures; specialised knowledge of and practitioner skills associated with using those tests that are within one’s repertoire of assessment tools; and knowledge and understanding of the construct or constructs underlying test scores, where this is important if valid inferences are to be drawn from the test results.
The Guidelines cover:
General personal task-related skills
This includes: the performance of relevant activities such as test administration, reporting, and the provision of feedback to test takers and other clients; oral and written communication skills sufficient for the proper preparation of test takers, test administration, the reporting of test results, and for interaction with relevant others (e.g., parents, or organisational policy makers); and
Copyright International Test Commission © 1999.
24
10-10-2013
interpersonal skills sufficient for the proper preparation of test takers, the administration of tests, and the provision of feedback of test results.
Contextual knowledge and skills
This includes: knowing when and when not to use tests; knowing how to integrate testing with other less formal components of the assessment situation (e.g., biographical data, unstructured interview and references etc.); and knowledge of current professional, legal, and ethical issues relating to the use of tests, and of their practical implications for test use.
Task management skills
This includes: knowledge of codes of conduct and good practice relating to the use of tests, test data, the provision of feedback, the production and storage of reports, the storage of and responsibility for test materials and test data; and knowledge of the social, cultural, and political context in which the test is being used, and the ways in which such factors might affect the results, their interpretation and the use to which they are put.
Contingency management skills
This includes: knowing how to deal with problems, difficulties, and breakdowns in routine; knowing how to deal with a test taker's questions during test administration etc.; and
Copyright International Test Commission © 1999.
25
10-10-2013
knowing how to deal with situations in which there is the potential for test misuse or for misunderstanding the interpretation of test scores.
Copyright International Test Commission © 1999.
26
10-10-2013
1
Take responsibility for ethical test use
Competent test users should: 1.1
Act in a professional and ethical manner
1.1.1 Promote and maintain professional and ethical standards. 1.1.2 Have a working understanding of current professional and ethical issues and debates relating to the use of tests in their field of application. 1.1.3 Implement an explicit policy on testing and test use.5 1.1.4 Ensure that people who work for or with them adhere to appropriate professional and ethical standards of behaviour. Conduct communications with due concern for the sensitivities of the test taker and other relevant parties. Represent tests and testing in a positive and balanced manner in communications with and through the media. 1.1.7 Avoid situations in which they may have or be seen to have a vested interest in the outcome of the assessment, or where the assessment might damage the relationship with their client. 1.2
Ensure they have the competence to use tests
1.2.1 Work within the limits of scientific principle and substantiated experience. 1.2.2 Set and maintain high personal standards of competence. 1.2.3 Know the limits of their own competence and operate within those limits.
5
An example policy outline is attached as Appendix A.
Copyright International Test Commission © 1999.
27
10-10-2013
1.2.4 Keep up with relevant changes and advances relating to the tests they use, and to test development, including changes in legislation and policy, which may impact on tests and test use. 1.3
Take responsibility for their use of tests
1.3.1 Only offer testing services and only use tests for which they are qualified. 1.3.2 Accept responsibility for the choice of tests used, and for the recommendations made. 1.3.3 Provide clear and adequate information to participants in the testing process about the ethical principles and legal regulations governing psychological testing. 1.3.4 Ensure that the nature of the contract between test-taker and tester is clear and understood.6 1.3.5 Be alert to any unintended consequences of test use. 1.3.6 Endeavour to avoid doing harm or causing distress to those involved in the testing process. 1.4
Ensure that test materials are kept securely
1.4.1 Ensure secure storage of and control access to test materials 1.4.2 Respect copyright law and agreements that exist with respect to a test including any prohibitions on the copying or transmission of materials in electronic or other forms to other people, whether qualified or otherwise. 1.4.3 Protect the integrity of the test by not coaching individuals on actual test materials or other practice materials that might unfairly influence their test performance. 1.4.4 Ensure that test techniques are not described publicly in such a way that their usefulness is impaired
6
An example ‘contract’ between test user and test taker is attached as Appendix B.
Copyright International Test Commission © 1999.
28
10-10-2013
1.5
Ensure that test results are treated confidentially.
1.5.1 Specify who will have access to results and define levels of confidentiality. 1.5.2 Explain levels of confidentiality to individuals before tests are administered. 1.5.3 Limit access to results to those with a right to know. 1.5.4 Obtain the relevant consents before releasing results to others. 1.5.5 Protect data kept on file so that only those who have a right of access can obtain them. 1.5.6 Establish clear guidelines as to how long test data are to be kept on file. 1.5.7 Remove names and other personal identifiers from databases of results that are archived, for research use, development of norms or other statistical purposes.
Copyright International Test Commission © 1999.
29
10-10-2013
2
Follow good practice in the use of tests
2.1
Evaluate the potential utility of testing in an assessment situation
Competent test users will: 2.1.1 Produce a reasoned justification for the use of tests. 2.1.2 Ensure there has been a thorough analysis of the client’s needs, reasons for referral, or of the diagnostic category, condition, or job for which assessment is being used. Establish that the knowledge, skills, abilities, aptitudes or other characteristics, which the tests are intended to measure, are correlates of relevant behaviours in the context about which inferences are to be drawn. Seek other relevant collateral sources of information. 2.1.5 Assess the advantages and disadvantages of using tests compared with other sources of information. 2.1.6 Ensure that full use is made of all available collateral sources of information. 2.2
Choose technically sound tests appropriate for the situation
Competent test users will: 2.2.1 Examine current information covering the range of potentially relevant tests (e.g., from specimen sets, independent reviews, expert advice), before selecting a test to use. 2.2.2 Determine that the test’s technical and user documentation provides sufficient information to enable evaluation of the following: a)
scope or coverage and representativeness of test content, appropriateness of
norm groups, difficulty level of content etc.;
Copyright International Test Commission © 1999.
30
10-10-2013
b)
accuracy of measurement and reliability demonstrated with respect to relevant
populations; c)
validity (demonstrated with respect to relevant populations) and relevance for
the required use; d)
freedom from systematic bias in relation to the intended test taker groups;
e)
acceptability to those who will be involved in their use, including perceived
fairness and relevance; f)
practicality, including time required, costs, and resource needs.
2.2.3 Avoid the use of tests that have inadequate or unclear supporting technical documentation; 2.2.4 Use tests only for those purposes where relevant and appropriate validity evidence is available. 2.2.5 Avoid judging a test solely on the basis of face value, test-user testimonials, or advice from those with a vested commercial interest. 2.2.6 Respond to requests from relevant interested parties (e.g. test takers, parents, managers) by providing sufficient information to allow them to understand why the test was chosen.
2.3
Give due consideration to issues of fairness in testing
When tests are to be used with individuals from different groups (e.g., groups differing in terms of gender, cultural background, education, ethnic origin, or age), competent test users will make all reasonable efforts to ensure that: 2.3.1 The tests are unbiased and appropriate for the various groups that will be tested. 2.3.2 The constructs being assessed are meaningful in each of the groups represented. Evidence is available on possible group differences in performance on the test. Evidence relating to differential item functioning (DIF) is available, where relevant. Copyright International Test Commission © 1999.
31
10-10-2013
2.3.5 There is validity evidence to support the intended use of the test in the various groups. 2.3.6 Effects of group differences not relevant to the main purpose (e.g., differences in motivation to answer, or reading ability) are minimised. In all cases, Guidelines relating to the fair use of tests are interpreted in the context of local policy and legislation.7
When testing in more than one language (within or across countries8), competent test users will make all reasonable efforts to ensure that: 2.3.8 Each language or dialect version has been developed using a rigorous methodology meeting the requirements of best practice. 2.3.9 The developers have been sensitive to issues of content, culture and language. 2.3.10 The test administrators can communicate clearly in the language in which the test is to be administered. 2.3.11 The test taker’s level of proficiency in the language in which the test will be administered is determined systematically and the appropriate language version is administered or bilingual assessment is performed, if appropriate.
When tests are to be used with people with disabilities, competent test users will make all reasonable efforts to ensure that: 2.3.12 Advice is sought from relevant experts on the potential effects of the various disabilities on test performance. 2.3.13 Potential test takers are consulted and their needs and wishes are given proper consideration.
7
The Guidelines in this section focus on what is ‘best practice’. However, in many countries, issues
relating to the fair use of tests must also take account of national laws (e.g., the Americans with Disabilities Act, 1990, in the USA, or the Race Relations Act, 1976, in the UK). 8
These Guidelines relate not only to different national languages and dialects, but also to special forms
of communication, such as sign language, used to overcome the effects of forms of disability. Copyright International Test Commission © 1999.
32
10-10-2013
2.3.14 Adequate arrangements are made when test takers include people with hearing, visual or motor impairments, or other disabilities (e.g., learning impairments, dyslexia .). 2.3.15 Use of alternative assessment procedures, rather than modifications to tests, is considered (e.g., other more suitable tests, or alternative structured forms of assessment). 2.3.16 Relevant professional advice is sought if the degree of modification required for use by those with disabilities is beyond the experience of the test user. 2.3.17 Modifications, when necessary, are tailored to the nature of the disability and are designed to minimize impact on score validity. 2.3.18 Information regarding the nature of any modifications made to a test or testing procedure is provided to those who interpret or act upon the test scores whenever the withholding of such information might otherwise result in biased interpretation or an unfair decision.
2.4
Make necessary preparations for the testing session
The competent test user will make all reasonable efforts to: 2.4.1 Provide relevant parties in a timely manner with clear information concerning the purpose of testing, ways in which they might best prepare for the test session, and the procedures to be followedr. 2.4.2 Advise test takers of the linguistic or dialectic groups for which the test is considered appropriate. 2.4.3 Send test takers approved practice, sample, or preparation materials where these are available and where this is consistent with recommended practice for the tests concerned. 2.4.4 Explain clearly to test takers their rights and responsibilities9.
9
See Appendix B.
Copyright International Test Commission © 1999.
33
10-10-2013
2.4.5 Gain the explicit consent of test takers or their legal guardians or representatives before any testing is done. 2.4.6 Explain, when testing is optional, the consequences of taking or not taking the test to relevant parties so that they can make an informed choice. 2.4.7 Make the necessary practical arrangements by ensuring that: a)
preparations conform to those stipulated in the publisher’s manual;
b)
locations and facilities for testing have been arranged well in advance, and the
physical environment is accessible, safe, quiet, free from distractions and appropriate for the purpose; c)
sufficient materials are available and have been checked to ensure there are no
marks left by previous users on question booklets or answer sheets; d)
staff who will be involved in the administration are competent;
e)
appropriate arrangements have been made for the testing of people with
disabilities10. 2.4.8 Anticipate likely problems and counteract them through thorough preparation of materials and instructions. 2.5
Administer the tests properly
The competent test user will: 2.5.1 Establish rapport by welcoming test-takers and briefing them in a positive fashion. 2.5.2 Act to reduce test-taker anxiety and avoid creating or reinforcing unnecessary anxiety. 2.5.3 Ensure potential sources of distraction (e.g., wristwatch alarms, mobile phones, pagers) are removed. 2.5.4 Ensure test-takers have the materials they require for taking the test before it begins.
10
See Appendix C.
Copyright International Test Commission © 1999.
34
10-10-2013
2.5.5 Administer tests under appropriate supervised conditions. 2.5.6 Wherever possible, administer test instructions in the primary language of the test takers, even where the test content is designed to provide evidence of knowledge or skills in a non-primary language. 2.5.7 Adhere strictly to the directions and instructions as specified in the test manual while making reasonable accommodations for persons with disabilities. 2.5.8 Read instructions clearly and calmly. 2.5.9 Provide adequate time for examples to be completed. 2.5.10 Observe and record deviations from test procedures. 2.5.11 Monitor and record response times accurately where appropriate. 2.5.12 Ensure all materials are accounted for at the end of each testing session. 2.5.13 Administer tests by modes that permit adequate and appropriate levels of supervision and authentication of the identity of the test takers. 2.5.14 Ensure those assisting the administration have had proper training. 2.5.15 Ensure test takers are not left unattended or subjected to distracting activities during a supervised test session. 2.5.16 Provide appropriate assistance to test takers who show signs of undue distress or anxiety. 2.6
Score and analyse test results accurately
Competent test users will: 2.6.1 Follow carefully the standardised procedures for scoring. 2.6.2 Carry out appropriate raw score conversions to other relevant types of scale. 2.6.3 Choose scale types relevant to the intended use of the test scores. 2.6.4 Check score scale-conversions and other clerical procedures for accuracy. 2.6.5 Ensure that invalid conclusions are not drawn from comparisons of scores with norms that are not relevant to the people being tested or are outdated.
Copyright International Test Commission © 1999.
35
10-10-2013
2.6.6 Compute, where appropriate, composite scores using standard formulae and equations. 2.6.7 Employ procedures to screen test results to recognise improbable or unreasonable scores. 2.6.8 Clearly and accurately label scales in reports, and provide clear identification of norms, scales types, and equations used. 2.7
Interpret results appropriately
Competent test users will: 2.7.1 Have a good professional understanding of the test’s theoretical or conceptual basis, technical documentation and guidance on the use and interpretation of the scale scores. 2.7.2 Have a good understanding of the scales used, the characteristics of the norm or comparison groups, and the limitations of the scores. 2.7.3 Take steps to minimise the effects on test interpretation of any biases the test interpreter may have towards members of the test taker’s cultural group. 2.7.4 Use appropriate norm or comparison groups where available. 2.7.5 Interpret results in the light of available information about the person being tested (including age, gender, schooling, culture and other factors) with due regard for the technical limitations of the test, the assessment context, and the needs of those with a legitimate interest in the outcome of the process. 2.7.6 Avoid over-generalising
the results of one test to traits or human
characteristics which are not measured by the test. 2.7.7 Consider each scale’s reliability, error of measurement and other qualities which may have artificially lowered or raised results when interpreting scores. 2.7.8 Give due consideration to the available evidence of validity, with respect to the construct being measured for members of the test takers’ relevant demographic groups (e.g., cultural, age, social class, and gender groups).
Copyright International Test Commission © 1999.
36
10-10-2013
2.7.9 Use passing scores (cut-scores) in test interpretation only when evidence of the validity for the pass scores is available and supports its use. 2.7.10 Be aware of negative social stereotyping that may pertain to members of the test taker’s group (e.g., cultural group, age, social class, and gender) and avoid interpreting tests in a manner that perpetuates such stereotyping. 2.7.11 Take into account any individual or group variations from standard procedures in test administration. 2.7.12 Take into account any evidence of prior experience with the test where there are data available relating to the effect of such experience on test performance.
2.8
Communicate the results clearly and accurately to relevant others
Competent test users will: 2.8.1 Identify appropriate parties who may legitimately receive test results. With the informed consent of the test takers, or their legal representatives, produce written or oral reports for relevant interested parties. Ensure that the technical and linguistic levels of any reports are appropriate for the level of understanding of the recipients. 2.8.4 Make clear that the test data represent just one source of information and should always be considered in conjunction with other information. 2.8.5 Explain how the importance of the test results should be weighted in relation to other information about the people being assessed. 2.8.6 Use a form and structure for a report that is appropriate to the context of the assessment. 2.8.7 When appropriate, provide decision-makers with information on how results may be used to inform their decisions. 2.8.8 Explain and support the use of test results used to classify people into categories (e.g., for diagnostic purposes or for job selection).
Copyright International Test Commission © 1999.
37
10-10-2013
2.8.9 Include within written reports a clear summary, and when relevant, specific recommendations. 2.8.10 Present oral feedback to test takers in a constructive and supportive manner. 2.9
Review the appropriateness of the test and its use
Competent test users will: 2.9.1 Monitor and periodically review changes over time in the populations of individuals being tested and any criterion measures being used. 2.9.2 Monitor tests for evidence of adverse impact. 2.9.3 Be aware of the need to re-evaluate the use of a test if changes are made to its form, content, or mode of administration. 2.9.4 Be aware of the need to re-evaluate the evidence of validity if the purpose for which a test is being used is changed. 2.9.5 Where possible, seek to validate tests for the use to which they are being put, or participate in formal validation studies. 2.9.6 Where possible, assist in updating information regarding the norms, reliability and validity of the test by providing relevant test data to the test developers, publishers or researchers.
Copyright International Test Commission © 1999.
38
10-10-2013
References
American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1985). Standards for Educational and Psychological Testing. Washington DC: American Psychological Association. Bartram, D. (1995). The Development of Standards for the Use of Psychological Tests in Occupational Settings: The Competence Approach. The Psychologist, May, 219-223. Bartram, D. (1996). Test Qualifications and Test Use in the UK: The Competence Approach. European Journal of Psychological Assessment, 12, 62-71. Canadian Psychological Association. (1987). Guidelines for Educational and Psychological Testing. Ottawa: Canadian Psychological Association. Eyde, L. D., Moreland, K. L. & Robertson, G. J. (1988). Test User Qualifications: A Data-based Approach to Promoting Good Test Use. Report for the Test User Qualifications
Working
Group.
Washington
DC:
American
Psychological
Association. Eyde, L. D., Robertson, G. J., Krug, S. E. et al (1993). Responsible Test Use: Case Studies For Assessing Human Behaviour. Washington DC: American Psychological Association. Fremer, J., Diamond, E. E. & Camara, W. J. (1989). Developing a Code of Fair Testing Practices in Education. American Psychologist, 44, 1062-1067. Hambleton, R. (1994). Guidelines for adapting educational and psychological tests: A progress report. European Journal of Psychological Assessment, 10, 229-244. Joint Committee on Testing Practices. (1988). Code of Fair Testing Practices in Education. Washington DC: Joint Committee on Testing Practices. Joint Committee on Testing Practices. (2000). Rights and Responsibilities of Test Takers: Guidelines and Expectations. Washington DC: Joint Committee on Testing Practices. Copyright International Test Commission © 1999.
39
10-10-2013
Kendall, I., Jenkinson, J., De Lemos, M. & Clancy, D. (1997). Supplement to Guidelines for the use of Psychological Tests. Australian Psychological Society. Moreland, K. L., Eyde, L. D., Robertson, G. J., Primoff, E. S. & Most, R. B. (1995). Assessment of Test User Qualifications: A Research-Based Measurement Procedure. American Psychologist, 50, 14-23. Schafer, W. D. (1992). Responsibilities of Users of Standardized Tests: RUST Statement Revised. Alexandria, VA: American Association for Counseling and Development. Van de Vijver, F. & Hambleton, R. (1996). Translating tests: some practical guidelines. European Psychologist , 1, 89-99.
Copyright International Test Commission © 1999.
40
10-10-2013
Appendix A: Guidelines for an outline policy on testing.
The following guidelines relate to the need for organizations to consider their policy on testing in a systematic manner and to ensure that everyone involved is clear as to what the policy is. The need for an explicit policy on testing is not confined to large organisations. Small and medium-sized enterprises that use testing, as well as large ones, should pay regard to testing policy in the same way as they do to health and safety, equal opportunities, disability and other areas relating to good practice in the management, treatment and care of personnel.
While the following considerations or requirements may need to be adapted for use by individual test users operating as sole professional practitioners, it remains important that they have a clear understanding of their own policy and can communicate it to others.
A policy on testing is produced in order to: - ensure personal and organisational aims are met; - ensure that potential misuse is avoided; - demonstrate commitment to good practice; - ensure test use is appropriate for its purpose; - ensure tests do not discriminate unfairly; - ensure evaluations are based on comprehensive, relevant information; - ensure tests are only used by qualified staff.
A policy on testing will need to cover most if not all the following issues: - proper test use; - security of materials and scores; - who can administer tests, score and interpret tests;
Margarida Pocinho
Página 41
- qualification requirements for those who will use the tests; - test user training; - test taker preparation; - access to materials and security; - access to test results and test score confidentiality issues; - feedback of results to test takers; - responsibility to test takers before, during and after test session; - responsibilities & accountability of each individual user.
Any policy needs to be regularly reviewed and updated as advances in testing, or changes in practice occur.
Relevant parties need to have access to and be informed about the policy on testing.
Responsibility for any organisation’s testing policy should reside with a qualified test user who has the authority to ensure implementation of and adherence to the policy.
Margarida Pocinho
Página 42
Appendix B: Guidelines for developing contracts between parties involved in the testing process.
Contracts between the test user and test takers should be consistent with good practice, legislation and the test user’s policy on testing. The following is provided as an example of the sort of matters such a contract might cover. The details will vary as a function of the assessment context (e.g., occupational, educational, clinical, forensic) and local or national regulations and laws.
Contracts between test user, test takers and other parties are often implicit and unspoken (at least in part). Making clear the expectations, roles and responsibilities of all parties can help to avoid misunderstanding, harm, and litigation.
For their part, the test user will endeavour to: b.1
inform test takers of their rights regarding how their test scores will be used and
their rights of access to them11; b.2
give adequate prior warning of any financial charges that may be entailed by the
testing process, who will be responsible for their payment, and when payment will be due; b.3
treat test takers with courtesy, respect and impartiality regardless of race, gender,
age, disability, etc.; b.4
use tests of proven quality, appropriate for the test takers, and appropriate for the
assessment purpose; b.5
inform test takers prior to testing about the purpose of the assessment, the nature
of the test, to whom test results will be reported and the planned use of the results;
11
Legislation varies between countries on this issue. For example, the current UK Data Protection Act
provides rights of access to data stored on computer different from those for data written on paper.
Margarida Pocinho
Página 43
b.6
give advance notice of when the test will be administered, and when results will
be available, and whether or not test takers or others may obtain copies of the test, their completed answer sheets, or their scores12; b.7
have a trained person administer the test and have the results interpreted by a
qualified person; b.8
ensure test takers know if a test is optional and, when it is, the consequences of
taking or not taking the test; b.9
ensure test takers understand the conditions, if any, under which they may re-
take tests, have tests re-scored, or have their scores cancelled; b.10
ensure test takers know that they will have their results explained to them as
soon as possible after taking the test in easily understood terms; b.11
ensure test takers understand that their results are confidential to the extent
allowed by law and best practice; b.12
inform test takers who will have access to their results, and the conditions which
scores will be released; b.13
ensure that test takers are aware of the procedures for making complaints or
notifying problems;
The test user will inform test-takers that they are expected to: b.14
treat others with courtesy and respect during the testing process;
b.15
ask questions prior to testing if uncertain about why the test is to be
administered, how it will be administered, what they will be required to do and what will be done with the results; b.16
inform an appropriate person about any condition that they believe might
invalidate the test results or which they would wish to have taken into consideration;
12
While tests and answer sheets are not normally passed on to others, there is some variation between
countries in practice relating to what test takers or others are permitted to have. However, there is much greater variation in the expectations of test takers concerning what information they will be given. It is important that contracts make clear what they will not be given as well as what they will.
Margarida Pocinho
Página 44
b.17
follow the instructions of the test administrator;
b.18
be aware of the consequences of not taking a test if they choose not to take it,
and be prepared to accept those consequences; b.19
ensure that, if required to pay for any the testing service(s), payment is made by
the agreed date.
Margarida Pocinho
Página 45
Appendix C: Points to consider when making arrangements for testing people with disabilities or impairments
Considerable care and expertise is needed when the mode of administration of a test has to be changed to accommodate the needs of people with disabilities. As always, local and national law and practice13 need to be considered, and the individual’s rights to privacy must be respected. In seeking information regarding types and levels of disability, inquiries should only seek information relating to each person’s ability to undertake the activities required to complete the test. Particular care needs to be exercised in relation to employment testing14.
There is no simple rule of thumb that can be used to ensure that a test is administered fairly for people with all types of disability. It is a matter of professional judgement as to whether it is better to use some alternative form of assessment, or to modify the test or its mode of administration. In practice, it is rarely possible to norm modified tests on sufficient samples of people with equivalent disability in order to ensure comparability of the test with the standardised version. However, where data exist on, for example, the effects of changing time limits, use of Braille or audiotape spoken versions of tests, such data should guide the user in making the necessary accommodations. While full standardization of a modified version may not be possible, pilot testing on small samples of individuals should be carried out whenever practical.
Given the dearth of information about the performance of people with disabilities on tests (whether modified or not), it is often more appropriate for test result to be used in a more qualitative manner. They can be used to give an indication of the characteristic
13
In the United States, for example, attention must be paid to the provisions of the Americans with
Disabilities Act (1990). In the UK, the Disability Discrimination Act (1995), Employment Code of Practice states that “employers are required to revise tests – or the way the results of such tests are assessed – to take account of specific disabled candidates.” 14
For detailed guidance on this in the United States, see Eyde, Nestor, Heaton and Nelson (1994).
Margarida Pocinho
Página 46
being assessed (ability, motivation, personality, etc.), which can be supplemented and supported by information gathered using other methods.
For individual assessment, the assessor can usually tailor the assessment procedures to the capabilities of the person who is being assessed. However, particular issues arise in group testing (e.g., for selection into employment).
Here there may be practical
difficulties involved in varying the mode of administration for particular individuals within a group administration setting. Furthermore, all parties may see differences in treatment as being unfair. For example if more time is given for test completion, those with the disability may be conscious that they are being treated ‘differently’, and those without the disability may feel that the extra time provides an unfair advantage.
Advice on special needs can usually be obtained from relevant disability organisations as well as the individual test takers. It is generally helpful (where the law permits) to ask the individual directly in a non-threatening and supportive way if there are any considerations that need to be taken into account15. In many cases such consultation will enable suitable modifications to be made to the test taking environment without requiring changes to the test itself.
The following outline protocol provides a general guide to the process of deciding whether to modify testing and how to carry out the modification. Essentially, disability may contribute no variance to test scores, contribute construct relevant variance or construct irrelevant variance. In the first case, no modifications are necessary. In the final case, modifications should be aimed at removing the irrelevant source of variance (by suitable modification of the test conditions or substitution of a more suitable test). For the second case (construct relevant variance), however, modification to the test will affect the relevance of the test scores.
15
In the UK, the Disability Discrimination Act (1995) also places some obligation on the individual to
raise awareness of their needs.
Margarida Pocinho
Página 47
Is the disability likely to have an effect upon test performance? Many people have disabilities that would not affect test performance. In such cases, it would be inappropriate to make accommodations for them. If the disability is likely to affect test performance, then is the effect on performance incidental to the construct being measured? For example, a person with an arthritic hand may have trouble with a speeded test which involves writing. If the ability to perform manual tasks rapidly is part of the construct being measured, then the test should not be changed. However, if the purpose is to assess visual checking speed, then an alternative mode of response would be appropriate. When the particular disability is incidental to the construct being measured but is likely to affect the individual’s performance on the test, then modification of the procedure may be considered. Users should always consult the test manual and the publisher for guidance on modification and for information regarded alternative formats and procedures. Users should also consult relevant disability organisations for advice and guidance on the possible implications of a specific disability, relevant literature or documentation, and the sort of adaptations or accommodations that may prove helpful. Any modifications made to the test or test administration procedures should be carefully documented along with the rationale behind the modification.
Margarida Pocinho
Página 48
Appendix D. Conditions governing the translation of the ITC Guidelines on Test Use.
The following conditions apply to official versions of the International Test Commission (ITC) Guidelines. The conditions delegate authority for checking the quality and accuracy of translation to the local national Psychological Association.
There is only to be one official translation in each country. Copyright of the original version remains vested in the ITC. The ITC will give permission for an official version to be produced under the auspices of the local national Psychological Association, subject to a copy being lodged with the ITC and the Psychological Association taking responsibility for the accuracy of the translation. A letter formally approving the accuracy of the translation, from the relevant officer of the local national Psychological Association, must be lodged with the ITC. The ITC will reserve the right to distribute copies of that translation itself without payment to the Psychological Association, and will want to have the guidelines available through the ITC website. The official version should be referred to as: "International Test Commission (ITC) Guidelines on Test Use: [Language] Version. Translation authorised by the [full name of the Psychological Association]" The official version should have both the logo of the Psychological Association and that of the ITC clearly displayed. The Guidelines themselves should be made available either free of charge or on a notfor-profit basis. Locally developed supporting documents, applications, qualification procedures, etc that build on the Guidelines may be charged for on a commercial basis. Normal copyright rules apply, and permission will need to be sought by people wishing to publish extracts. In relation to the locally translated version, the ITC delegates the giving of permission for this to the local Psychological Association responsible for the translation. A notice to this effect should appear on the Guidelines document.
Margarida Pocinho
Página 49
TITULO
NOME COMPLETO
Trabalho realizado no âmbito da disciplina de Psicometria do curso de Psicologia para servir de elemento de avaliação prática Docente: Professora Doutora ____________________________________
Coimbra, mês de ano
Índice Resumo (titulo/cabeçalho 1) .............................................................................. 1 Introdução (titulo/cabeçalho 1)........................................................................... 1 Material e métodos (titulo/cabeçalho 1) ............................................................. 3 Resultados (titulo/cabeçalho 1)........................................................................... 3 Discussão e conclusão (titulo/cabeçalho 1) ......................................................... 5 Bibliografia (titulo/cabeçalho 1) ......................................................................... 8
Nota prévia
Chamo-me Margarida Pocinho, sou autora do guião que aqui lhe apresento. Utilizei como exemplos do que fui dizendo o artigo propriedades psicométricas da Motor Activity Log Saliba et al., de 2008 disponível a partir do endereço electrónico http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view e aconselho que: Antes de começar a escrever o artigo projete-o isto é, esboce-o. O propósito do esboço é dividir a escrita do artigo inteiro num número de tarefas menores, por isso comece por organizar os vários tópicos e argumentos de forma lógica, o que permitirá identificar lacunas no trabalho antes da escrita do artigo. O guião que se segue ajudá-lo-á. Escreva o artigo em partes. Não tente escrever o artigo inteiro de uma só vez. Ao contrário, trate cada seção como um mini texto. Não se preocupe com as gralhas e edições. Faz isso o fim. Apos terminar a primeira versão do texto, esqueça-o por uns dias. É preciso distanciação para fazer uma revisão do que se escreveu, caso contrário vai ler o que devia lá estar e não o que lá está. Quando estiver na maxima energia, reveja o texto várias vezes até sentir que não é possível melhorar mais.
Olhe para o trabalho como um critico severo, embora
respeitador, e não como um autor. Para melhor legibilidade, a maior parte. Os artigos científicos com frases constituídas com 15 a 20 palavras e parágrafos com aproximadamente 150 palavras são considerados óptimos em termos de leitura. Por isso corte as palavras desnecessárias e escreva de forma consistente do começo ao fim do artigo. Isto é muito importante, em especial no caso de artigos escritos por mais de um autor.
Artigo de Revisão
Título e subtítulo Nome do (s) autor (es); O título é o menor resumo de uma obra e quando é eficaz “vende” o artigo ao leitor imediatamente determinando se ele irá ou não lê-lo. É a primeira coisa que se lê e serve como cartão de apresentação. Não pode ser ambiguo e o tamanho recomendado é de 10 a 12 palavras. Os nomes científicos devem estar por extenso evitando-se
usar
abreviaturas e siglas; já que podem ter diferentes significados para diferentes pessoas
Resumo (titulo/cabeçalho 1) Resumo na língua do texto e palavras chave; Abstrat (em Inglês) e Key-words. É uma versão condensada do artigo pelo que não deve acrescentar dados novos.. Ele destaca os pontos principais, descreve concisamente o conteúdo. Deve ser conciso e fácil de ler. É a segunda seção lida (a primeira é o titulo) O resumo deve comunicar apenas a informação essencial. Retire palavras ou frases que sejam apenas informação de suporte, revisão da literatura e evite a descrição detalhada dos métodos. Peça a um colega para ler o resumo (de preferência alguém que não esteja familiarizado com o seu trabalho) e pergunte-lhe se faz sentido. Um bom resumo contem as palavras chave.
Introdução (titulo/cabeçalho 1) Breve apresentação do tema em estudo (de 300 a 500 palavras) e dos aspectos mais relevantes da investigação. O objetivo deve fornecer informações necessárias para o entendimento do resto do artigo; resumir o problema em estudo, discutir as pesquisas anteriores sobre o tema e explicar o que é feito no artigo, o porquê e o como. Progrida do geral para o específico: do problema no mundo real para a literatura pertinente e, depois, para a pesquisa feita. Escreva no tempo presente, com exceção da descrição daquilo que foi feito ou descoberto no estudo relatado no artigo, que deve ser escrito no passado. Deve aqui definir o objectivo do estudo 1 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão Exemplo de uma Introdução No Brasil, o Acidente Vascular Encefálico (AVE) apresenta um importante impacto na saúde pública, pois além de ser altamente prevalente, está associado a elevados índices de morbidade e incapacidade (1, 2), gerando custo considerável para o sistema de saúde e para o indivíduo e seus familiares (3). Comumente, o AVE compromete os diferentes níveis da Classificação Internacional de Funcionalidade, Incapacidade e Saúde (3) e a percepção de qualidade de vida dos indivíduos (4), sendo considerado a maior causa de incapacidade crônica em países desenvolvidos e em desenvolvimento (1, 2). Dentre as incapacidades geradas pelo AVE, a alteração da função dos membros superiores (MMSS) é uma das maiores queixas dos indivíduos, devido ao comprometimento da destreza durante a execução de importantes atividades manuais de vida diária (5). Usualmente, a dificuldade em usar o membro superior (MS) mais afetado pode levar ao “aprendizado do não uso”, caracterizado pela adoção compensatória de maior uso do MS não afetado e diminuição do uso do MS afetado durante a realização das atividades de vida diária (AVD’s) (6, 7, 8, 9), aumentando ainda mais as incapacidades associadas ao MS mais afetado, e, consequentemente, aos MMSS (9). Apesar do elevado número de intervenções destinadas ao aumento da habilidade motora do MS mais afetado (5, 10), os estudos tipicamente avaliam o impacto da recuperação dos MMSS destes indivíduos por medidas específicas à estrutura e função do corpo e/ou globais de atividade e/ ou participação, sem enfatizar, especificamente, os efeitos do uso do MS mais afetado nas AVD’s (7, 11). Com o objetivo de avaliar a habilidade motora do MS afetado no dia a dia do indivíduo e, assim, fornecer informações sobre a função e a utilização espontânea do MS acometido após o AVE (9), foi desenvolvido, em 1986, o instrumento padronizado Motor Activity Log(MAL) (11), considerando o “aprendizado do não uso”(6, 8, 9, 11) e a requisição funcional do MS mais afetado nas AVD’s (11). Desde que foi proposta (9), a MAL tem sido frequentemente utilizada em estudos relacionados à reabilitação dos MMSS após o AVE (6, 7, 8, 9) e reconhecida como um importante instrumento para fornecer informações sobre a função do MS acometido (6, 7, 8, 9, 11). A versão original consta de 14 itens (MAL-14) que abordam o uso do MS afetado em AVD’s (6). Entretanto, para possibilitar a avaliação de indivíduos com grande comprometimento do MS mais afetado, uma versão com 30 itens (MAL-30) foi desenvolvida substituindo 4 itens da MAL-14 e acrescentando 16 itens que também estão relacionados às AVD’s (6, 12). Ambas as versões da MAL devem ser aplicadas sob a forma de entrevista, que podem ser realizadas com o indivíduo ou com o seu cuidador (12), e englobam duas subescalas ordinais para a graduação das atividades, com seis pontos em cada: uma relacionada à quantidade de uso (QT) e outra à qualidade do uso (QL) (12). Considerando a escala QT, a pontuação varia de “não usa o MS mais afetado” (pontuação 0) a “usa o MS mais afetado da mesma forma que usava antes da história de AVE” (pontuação 5). Para a QL, a pontuação varia de “o MS mais afetado não é usado de forma alguma para a atividade” (pontuação 0) a “sua habilidade de usar o MS mais afetado é tão boa quanto era antes do AVE” (pontuação 5). A pontuação total é obtida com o cálculo da média para cada uma das subescalas. Quanto maior a média obtida nas subescalas, melhor a qualidade e quantidade de uso do MS mais afetado na realização das AVD’s. Uma grande vantagem da MAL é que na situação em que alguma atividade não se aplica ao indivíduo, como pentear o cabelo para indivíduos calvos, o item pode ser descartado e o cálculo da média é feito com os itens restantes (12). Considerando que não foi encontrado nenhum instrumento desenvolvido e/ou adaptado para a Língua Portuguesa (Brasil) que avalie a habilidade motora do MS afetado no dia a dia do indivíduo, fornecendo informações sobre a função e a utilização espontânea do MS acometido após o AVE, somado a elevada prevalência dos comprometimentos funcionais associados às alterações dos MMSS em indivíduos acometidos pelo AVE (5)e a importância de uma avaliação sistematizada para a tomada de decisão clínica, que inclua o uso de testes e medidas com propriedades psicométricas adequadas e que informem sobre a funcionalidade e a incapacidade humana (13), o objetivo deste estudo foi: realizar
2 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão uma revisão bibliográfica sistemática sobre as propriedades psicométricas já estabelecidas sobre o uso da MAL em indivíduos com história de AVE, bem como avaliar suas potencialidades para utilização na população brasileira.
Material e métodos (titulo/cabeçalho 1) Descrição da amostra/ participantes, materiais/instrumentos e procedimentos de investigação adoptados.
Exemplo da metodologia Inicialmente, foram realizadas buscas nas bases de dados eletrônicas MEDLINE, LILACS, SciELO e PEDro, com a expressão “Motor Activity Log”. O resumo de todos os estudos encontrados com as buscas foram lidos por dois examinadores independentes para que fossem selecionados aqueles que atendessem aos seguintes critérios de inclusão: ter avaliado alguma propriedade psicométrica da MAL (independente da versão) em uma população de adultos (idade igual ou superior a 20 anos) com história de AVE e ter sido publicado até dezembro de 2006. Não houve restrição quanto ao idioma de publicação. Além disso, em todos os artigos selecionados, foi realizada uma busca manual ativa na lista de referências apresentada, pelos dois examinadores, também de forma independente, considerando os mesmos critérios de inclusão
Resultados (titulo/cabeçalho 1) Apresentação da informação obtida a partir da análise dos dados. As tabelas devem ser numeradas sequencialmente e antes de aparecerem, devem ser apresentadas. Exemplo de resultados Foram encontrados 55 estudos na base de dados MEDLINE e 16 na PEDro, dos quais apenas 1 foi diferente daqueles encontrados na MEDLINE. Nenhum estudo foi encontrado nas outras duas bases de dados eletrônicas pesquisadas, totalizando, assim, 56 analisados. Desses, apenas três atenderam aos critérios de inclusão préestabelecidos. Na busca manual realizada nesses estudos selecionados, não foram encontrados outros que fossem diferentes e que atendessem aos critérios de inclusão, permanecendo, assim, a análise dos três estudos. Dentre esses três estudos analisados, dois avaliaram as propriedades psicométricas da MAL-14 (7, 8) e um avaliou as propriedades psicométricas da MAL-30 (6). Todos avaliaram a consistência interna e a confiabilidade teste-reteste (6, 7, 8), dois avaliaram a responsividade (7, 8) e a estabilidade (6, 7) e todos avaliaram a validade (6, 7, 8). Desta forma, para as duas versões da MAL, foi investigada a consistência interna, a confiabilidade teste-reteste e a validade (6, 7, 8). A responsividade só foi investigada para a MAL-14 (7, 8). Nos três estudos, as subescalas da MAL-14 e da MAL-30 foram administradas sob forma de entrevista feita diretamente com os indivíduos com história de AVE (6, 7, 8) e, em dois estudos, também foram aplicadas aos cuidadores desses indivíduos (6, 7) (Tabela 1).
3 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão
Todos os estudos que investigaram a consistência interna da MAL utilizaram o teste estatístico á Cronbach. Quando aplicada aos indivíduos, o áCronbach da subescala QL da MAL-14 variou de 0,87 a 0,91 e da QT variou de 0,82 a 0,88. Quando aplicada aos cuidadores, foram de 0,82 e 0,95 para QL e QT, respectivamente (7, 8). Para a MAL-30, a consistência interna foi de 0,94 para ambas as subescalas quando aplicada aos indivíduos e de 0,95 quando aplicada aos cuidadores. Para avaliar a confiabilidade teste-reteste da MAL-14 aplicada aos indivíduos, Van Der Lee et al. (8) realizaram duas avaliações pré-intervenção, com intervalo de uma semana, e utilizaram o teste estatístico Bland and Altman. Foram reportados os valores de -0,61 a 0,71 para QL e de -0,70 a 0,85 para QT. Uswatte et al. (7) também avaliaram a confiabilidade teste-reteste da MAL-14 aplicada aos indivíduos e, além disso, a confiabilidade quando aplicada aos seus cuidadores, correlacionando os resultados da avaliação pré-intervenção com os da pós-intervenção pela Correlação de Pearson. Os valores encontrados foram de r=0,91 para a QL e de r=0,44 para QT, quando aplicada aos indivíduos, e de r=0,50 para QL e r=0,61 para QT, quando aplicada aos cuidadores. Em um outro estudo (6) que avaliou a confiabilidade teste-reteste das subescalas da MAL-30 aplicadas aos indivíduos e cuidadores, pelo Coeficiente de Correlação Intraclasse (CCI), considerando avaliações pré e pósintervenção em um grupo controle (tratamento convencional), foram relatados valores de CCI=0,82 para QL e CCI=0,79 para a QT, quando aplicada aos indivíduos, e de CCI=0,72 para QL e CCI=0,66 para QT quando aplicada aos cuidadores. Os dois estudos que avaliaram a MAL-14 (7, 8) também investigaram a sua responsividade, sendo que no estudo de Van Der Lee et al. (8) foi determinada a responsividade da QT e QL pela razão entre a média da diferença de duas avaliações pós-intervenção (uma semana de intervalo) com o desvio padrão da média da diferença das duas avaliações pré-intervenção. O resultado para a QT foi de 1,9 e para a QL de 2,0, o que foi considerado adequado. Uswatte et al. (7) determinaram a responsividade por meio de dois estudos. No primeiro, aplicaram a MAL-14 em indivíduos que participaram da Terapia de Contenção do Membro Superior (TCMS) e nos seus cuidadores. A responsividade foi calculada pela razão da média da diferença da TCMS com desvio padrão da média da diferença no grupo controle (exercícios globais) e os valores foram de 4,5 para QL e de 3,2 para QT, considerando a avaliação dos indivíduos, e 3,0 para QL e 4,3 para QT, considerando a avaliação dos cuidadores. No segundo estudo, avaliaram a responsividade da QL e QT aplicados aos indivíduos que realizaram Terapia de Contenção
4 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão Automatizada (TCA) por meio da razão da média da diferença do grupo de TCA com desvio padrão da média da diferença no grupo controle do estudo 1. Os resultados encontrados foram de 5,0 para a QL e 3,8 para a QT. A estabilidade da escala foi determinada em dois estudos pelo teste t de studentpareado (6, 7). Para QL e QT da MAL14 e da MAL-30 aplicada aos indivíduos e seus cuidadores, foram utilizados os dados da avaliação pré e pósintervenção do grupo controle. Os valores encontrados para a MAL-14 aplicada aos indivíduos foram de 0,1±0,4 para QL e de 0,1±0,5 para QT. Quando aplicada aos cuidadores foram de 0,2±0,5 para QL e de 0,1±0,4 para QT. Todos estes valores encontrados tanto para os indivíduos quanto para os cuidadores não foram estatisticamente significativos, confirmando a estabilidade do instrumento. Para as subescalas da MAL-30 aplicadas aos indivíduos, os valores foram de 0,30,5 (p=0,02) para QL e de 0,3±0,6 (p=0,04) para QT, e aplicada aos cuidadores foram de 0,4±0,7 (p=0,02) para QL e 0,4±0,7 (p=0,05) para QT (Tabela 1). Esse valores de pnão foram considerados significativos, pois, neste estudo, foi realizada correção de Bonferroni devido às múltiplas comparações feitas. Desta forma, foi confirmada a estabilidade do instrumento, apesar de ter sido relatado que houve uma tendência de mudança. Para a análise da validade da MAL-14, Van Der Lee et al. (8) realizaram uma avaliação pré-intervenção determinando a validade de construto transversal entre a QT e a QL e entre a MAL-14 e o teste Action Research Arm (ARA), pela Correlação de Spearman. Foram relatados resultados de r=0,95 (p=0,001) e r=0,63, (p<0,001), respectivamente. Além disso, foi investigada a validade de construto longitudinal, também pela Correlação de Spearman,entre a diferença das avaliações pré e pós-intervenção da MAL-14 com o teste ARA e a Global Change Rating(GCR). Não foi reportada correlação significativa com a ARA (p=0,16 para QT e QL) nem com a GCR (p=0,20 para QT e p=0,22 para QL) A validade convergente da MAL-14 foi investigada pelo CCI dos resultados das avaliações pré e pósintervenção entre a QL aplicada aos indivíduos e aos cuidadores. A subescala QL apresentou CCI=0,52 (p<0,01) nas avaliações realizadas na pré-intervenção e CCI=0,70 (p<0,001) na comparação dos dados da última avaliação préintervenção com os dados da avaliação pós-intervenção. Já a validade concorrente da subescala QL com o acelerômetro foi avaliada pela Correlação de Pearson, tendo resultados de r=0,70 (p<0,05) para as avaliações préintervenção e de r=0,91 (p<0,01) para as avaliações pós-intervenção (7). Na análise da validade convergente das subescalas da MAL-30 aplicadas aos indivíduos e cuidadores, foi realizada Correlação de Pearsonentre as avaliações pré-intervenção de QT e QL com o domínio da escala Stroke Impact Scale(SIS) relacionada à função da mão, e entre QT e QL com a razão da medida do acelerômetro do MS mais afetado com o MS menos afetado (6). A validade discriminativa entre as subescalas da MAL-30 foi avaliada pelo domínio que mede a mobilidade da escala SIS e a medida do MS menos afetado do acelerômetro. Os resultados encontrados para a validade convergente com a SIS, considerando a aplicação da escala nos indivíduos, foram de r=0,72 (p<0,01) para QL e de r=0,68 (p<0,01) para QT; com o acelerômetro foi de r=0,52 (p<0,01) para QL e de r=0,47 (p<0,01) para QT. A validade discriminativa da QL e QT com a SIS e acelerômetro foram igualmente de r=0,14 (p<0,01). Para os cuidadores, a validade convergente da QL com a SIS foi de r=0,40 (p<0,01) e da QT de r=0,35 (p<0,01). Com o acelerômetro foi de r=0,61 (p<0,01) para QL e de r=0,57 (p<0,01) para QT. A validade discriminativa da QL e QT com a SIS foi de r=0,07 e r=0,10, respectivamente, valores não significativos, e com o acelerômetro de r=0,23 (p<0,001) e r=0,25 (p<0,001), respectivamente (Tabela 1).
Discussão e conclusão (titulo/cabeçalho 1) A discussão é a reflexão sobre os resultados e articulação com o(s) modelo(s) teóricos e a investigação contemplados na revisão da literatura. A conclusão é a síntese 5 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão das principais conclusões e reflexão global sobre o significado da investigação no que diz respeito às implicações teóricas e práticas. Resposta à pergunta de partida. Exemplo de discussão e considerações finais Apesar do pequeno número de estudos encontrados que investigaram as propriedades psicométricas das versões da MAL, todas aquelas consideradas fundamentais para qualquer instrumento de avaliação (14,15) foram reportadas e com um grau positivo de consenso entre os diferentes estudos que investigaram propriedades semelhantes (6, 7, 8). De acordo com a literatura pesquisada, as versões da MAL apresentaram propriedades psicométricas adequadas para a avaliação da quantidade e qualidade de uso do MS afetado em indivíduos acometidos pelo AVE. Especificamente, a MAL-14 e a MAL-30 apresentaram-se internamente consistentes, com adequadas confiabilidade teste-reteste (6, 7, 8), estáveis (6, 7) e válidas (6, 7, 8). Além disso, a MAL-14 também apresentou-se responsiva (7, 8). A consistência interna refere-se à dimensão com que os itens de um instrumento apresentam homogeneidade ao medir vários aspectos de um mesmo fenômeno (14, 15). O teste estatístico comumente utilizado e mais indicado para a avaliação da consistência interna é o á Cronbach (14,15), o qual foi utilizado em todos os dois estudos que investigaram a consistência interna da MAL-14 e no estudo que investigou a consistência interna da MAL-30. Os valores reportados para ambas as versões da MAL foram adequados e considerados excelentes quando a escala foi aplicada tanto aos indivíduos quanto aos cuidadores (6, 7, 8). As versões da MAL também obtiveram adequada confiabilidade testereteste para as subescalas aplicadas aos indivíduos (6, 7, 8) e aos cuidadores (6, 7). No estudo de Uswatte et al. (8), os valores de confiabilidade das subescalas da MAL-14, apesar de significativos, foram considerados baixos pelos autores. Entretanto, segundo Salter et al. (14), esses valores de confiabilidade podem ser considerados adequados dependendo do desfecho que é avaliado, como aqueles relacionados à função, como verificado pela MAL. Esses desfechos são passíveis de variações, e como dependem da respostas dos indivíduos avaliados, estão sujeitos aos erros ao acaso, constituindo fatores que podem limitar a estabilidade entre as medidas e, assim, contribuir para uma menor confiabilidade (14, 15). Outra questão importante de ser considerada ao analisar os resultados deste estudo está relacionada a suas limitações metodológicas. Os dados empregados nos testes estatísticos foram referentes às avaliações pré e pós-intervenção, o que não é indicado para avaliar a confiabilidade, pois o grande intervalo de tempo entre as medidas e a presença de um fator que pode levar à mudança comprometem a estabilidade e, consequentemente, a confiabilidade. Além disso, o teste estatístico utilizado foi a Correlação de Pearson, que reporta somente o grau de correlação e não avalia a concordância (15). Se por um lado essas questões limitam conclusões sobre a confiabilidade da MAL-14, o resultado de outro estudo que também investigou a confiabilidade teste-reteste deste instrumento permitem que essas conclusões sejam obtidas. A confiabilidade da MAL-14 foi avaliada por métodos considerados mais adequados, como o teste estatístico Bland and Altman, e as diferenças entre as duas medidas pré-intervenção apontaram adequada concordância e sem tendências a erros sistemáticos. No estudo de Uswatte et al. (6), a confiabilidade teste-reteste da MAL-30 foi adequada e com resultados excelentes quando a mesma foi aplicada aos indivíduos. Neste estudo, o teste estatístico utilizado, o CCI, é frequententemente apontado como mais adequado, pois avalia a concordância entre as medidas (15). Outro fator que deve ser considerado ao analisar esses resultados é o maior número de itens da MAL-30 (15), que possivelmente pode estar relacionado com o aumento da confiabilidade desta versão (6, 15). Outra característica importante que um instrumento deve apresentar está relacionada à medida da mudança, quando há alteração na condição inicial do indivíduo, relacionada ao desfecho que o instrumento avalia (14, 15). Na ausência de alteração na condição inicial do indivíduo, espera-se um comportamento estável do instrumento, e com a variação da sua condição inicial, espera-se uma mudança paralela no desfecho avaliado (15). Esses dois comportamentos foram observados na MAL (6, 7, 8). A estabilidade na situação
6 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão de ausência de mudança na condição inicial do indivíduo foi observada na MAL-14 (7) e na MAL-30 (6) pela comparação da diferença entre as médias da pontuação inicial e final em um grupo de indivíduos que não recebeu nenhum programa de intervenção voltado para recuperação específica da função do MS afetado (6, 7). É importante destacar que a tendência de aumento na pontuação da MAL-30 observada no estudo de Uswatte et al. (6), a qual não foi significativa, pode ter ocorrido pela mudança espontânea que geralmente ocorre nos indivíduos após o acometimento pelo AVE (1), principalmente se considerarmos que havia a possibilidade de aumento do uso do MS mais afetado após a reabilitação tradicional. Já a responsividade à mudança também foi investigada em dois estudos que realizaram diferentes programas de intervenções voltados para a recuperação da função do MS afetado (7, 8), porém ambos utilizaram a MAL-14. Os resultados encontrados foram satisfatórios (7, 8). A validade, propriedade que está relacionada ao grau no qual as medidas de um instrumento refletem o que ele se intenciona a medir (14, 15), também foi investigada. Para a avaliação da validade relacionada a critério, que é considerada a mais prática e mais objetiva dentre os diferentes tipos de validade, espera-se que o teste, ao qual o teste alvo será comparado, seja considerado padrão ouro (15). Além disso, para a avaliação da validade relacionada a critério do tipo concorrente, as medidas dos dois testes devem ser tomadas relativamente no mesmo tempo (15). No caso da MAL-14, o instrumento utilizado como critério para avaliação da sua validade concorrente foi o acelerômetro (7), que permite avaliar de forma objetiva o uso do MS afetado no dia a dia do indivíduo e apresenta adequadas propriedades psicométricas, porém, fornece medidas numéricas relacionadas à aceleração (16), as quais são bem diferentes das medidas fornecidas pela MAL. Apesar disso, a correlação da QL da MAL-14 com o acelerômetro apresentou valores adequados, pois foi utilizado o teste de Correlação de Pearson, que permite estabelecer apenas a associação entre as medidas e não uma concordância, uma vez que as mesmas são bastante distintas (15). O outro tipo de validade investigado para a MAL-14 e a MAL-30 foi a validade de construto, que reflete a capacidade de um instrumento em medir um fenômeno abstrato ou um construto (15). É um processo de avaliação indicado para instrumentos como a MAL devido as dificuldades existentes para se correlacionar testes que medem desfechos de função com testes padrão-ouro, devido a ausência dos mesmos (15). Uma maneira de avaliar a validade de construto de um instrumento é correlacionando as suas medidas com a de outros testes de construtos semelhantes e, também, de construtos diferentes, determinando, assim, o que o instrumento mede bem como o que ele não mede. Isso é verificado pela validade de construto convergente, na qual medidas relacionadas ao mesmo construto irão produzir resultados altamente correlacionados, e pela discriminativa, na qual são observadas baixas correlações em medidas que avaliam construtos diferentes (15). No estudo de Van Der Lee et al. (8) houve uma razoável correlação para a validade de construto transversal da MAL-14 com a ARA e uma correlação sem significância estatística entre as mudanças da pontuação da MAL pré e pós-intervenção com as mudanças na ARA e no GCR. Uswatte et al. (7)discutem os resultados encontrados, visto que a MAL e a ARA avaliam construtos diferentes, sendo a ARA uma medida de habilidade motora e a MAL de uso espontâneo do MS mais afetado nas AVD’s em domicílio. Em relação à MAL e à GCR, ambas são escalas de percepção do indivíduo, mas a MAL avalia como e quanto os indivíduos usam seu MS em AVD’s e a GCR avalia a percepção de melhora do seu MS, dificultando a comparação dos resultados (7). Além disso, o uso de avaliações globais retrospectivas, como a GCR, não têm sido consideradas como válidas (17). Em um estudo realizado por Dromerick et al. (18) para avaliar a relação entre a limitação motora e uso dos MMSS nas AVD’s reportada pelos indivíduos com história de AVE, também foi enfatizada a diferença nos desfechos avaliados pela MAL e a ARA. No estudo de Uswatte et al. (7) a validade convergente da subescala QL da MAL-14 aplicada aos indivíduos foi estabelecida. A pontuação da mudança dessa escala demonstrou forte correlação e concordância com as medidas da QL aplicada aos cuidadores. Da mesma forma foi demonstrado que as subescalas da MAL-30 aplicadas, tanto nos indivíduos com história de AVE quanto nos seus cuidadores, apresentam validade convergente e discriminativa quando comparada com a SIS e o acelerômetro (6). Assim como o acelerômetro, a escala SIS
7 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão apresenta adequadas propriedades psicométricas (19), e a MAL-30 demonstrou adequada correlação com o domínio que avalia a função da mão, ao contrário quando comparada com o domínio de mobilidade (6). Além dos resultados positivos sobre as propriedades psicométricas da MAL e consenso observado nos três estudos incluídos nesta revisão é importante destacar que esses resultados também foram avaliados quando o instrumento foi aplicado aos cuidadores dos indivíduos com história de AVE (6, 7). O instrumento desenvolvido apenas para ser aplicado sob a forma de entrevista com o indivíduo pode ter a sua aplicabilidade limitada, uma vez que indivíduos com história de AVE podem apresentar sérios problemas cognitivos ou de comunicação (7, 13, 14). As evidências existentes sobre adequadas propriedades psicométricas, quando as subescalas foram aplicadas aos cuidadores (6, 7), apontam para a possibilidade do seu uso nesses casos específicos, ampliando, assim, a aplicabilidade da MAL. Além disso, Uswatte et al. (11) reiteram a aplicabilidade da MAL para avaliar especificamente o uso espontâneo do MS afetado nas AVD’s, o que não pode ser analisado por medidas específicas de estrutura e função do corpo e/ou medidas globais de atividade e/ou participação. E, como apontado por vários estudos (6, 7, 8), o comprometimento motor do MS mais afetado não implica necessariamente em alteração do seu uso nas AVD’s. Muitas vezes, a limitação do uso do MS afetado pode estar associado a outros fatores como o “aprendizado do não uso”(11). Com base nos resultados do presente estudo, a MAL-14 e a MAL-30 demonstraram ser instrumentos internamente consistentes, confiáveis e com adequada validade concorrente, de construto transversal, convergente e discriminativa para avaliação do uso do MS mais afetado nas AVD’s em indivíduos com história de AVE. Além disso, a responsividade, investigada apenas para a MAL-14, também foi observada. Considerando o desfecho que o instrumento avalia, a importância do mesmo para a população a qual se destina e, principalmente, para os profissionais da reabilitação, as adequadas propriedades psicométricas já estabelecidas para a MAL e as vantagens associadas à adaptação transcultural de instrumentos, é necessário o desenvolvimento de estudos para a adaptação transcultural para a Língua Portuguesa (Brasil), assim como para a validação da MAL nessa população, para que a mesma possa ser utilizada nos indivíduos brasileiros.
Bibliografia (titulo/cabeçalho 1) Lista de referências bibliográficas segundo uma ordem específica e que contem elementos descritivos de documentos, que permitem a sua identificação. Seguir as normas mais recentes da APA (www.apa.org). Aconselho a utilização do Mendeley desktop
Livro: Saliba, V. A., Penaforte, I., Júnior, C., Danielli, C., Morais, C. De, & Teixeira-salmela, L. F. (2008). propriedades psicométricas da Motor Activity Log : uma revisão sistemática da literatura. Fisioterapia em Movimento, 21(3), 59–67. Retrieved from http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view
Artigo em revista/ jornal científico sem doi 8 Autor (e-mail:xxxxxxx) Ano
Guião para Artigo de Revisão Pocinho, M., Farate, C., & Dias, C. A. (2010). Validação Psicométrica da Escala UCLALoneliness para Idosos Portugueses. Interações: sociedade e novas modernidades, (18), 65–77.
Artigo em revista/ jornal científico com doi Pocinho, M. T. S., Farate, C., Dias, C. a., Lee, T. T., & Yesavage, J. a. (2009). Clinical and Psychometric Validation of the Geriatric Depression Scale (GDS) for Portuguese Elders. Clinical Gerontologist, 32(2), 223–236. doi:10.1080/07317110802678680
Poster em proceedings book Ponciano, E., Pocinho, M., Moita, E., Monteiro, H., & Indmarch, I. (2006). Effects of Fluvoxamine, Fluoxetine and Placebo on Psychomotor Performance in Healthy Volunteers. ICPE (p. 45).
Teses em biblioteca de universidade não disponível online Pocinho, M. T. S. (2000). Peso, insatisfação corporal, dietas e patologia alimentar: um contributo para a sua compreensão. Dissertação de Mestrado apresentada ao Instituto Superior Miguel Torga .
Teses em repositório Saliba, V. A., Penaforte, I., Júnior, C., Danielli, C., Morais, C. De, & Teixeira-salmela, L. F. (2008). propriedades psicométricas da Motor Activity Log : uma revisão sistemática da literatura. Fisioterapia em Movimento, 21(3), 59–67. Retrieved from http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view
Documentos em páginas web Pocinho, Margarida. (2009). Estatistica: teoria e exercicios passo a passo. Volume I. ISMT. Retrieved January 1, 2010, from http://docentes.ismt.pt/~m_pocinho/Sebenta_estatistica I.pdf
9 Autor (e-mail:xxxxxxx) Ano
Guião para apresentação das características psicométricas de uma escala
TRABALHO PRÁTICO 1. RECOLHA
DE DADOS PARA VALIDAÇÃO DA ESCALA QUE ESCOLHEU E ELABORAÇÃO DE
UMA BASE DE DADOS COM OS INQUÉRITOS QUE ADMINISTROU .
2. ANÁLISE PSICOMÉTRICA FOLHA INICIAL: IDENTIFICAÇÃO DO/A A LUNO/A CONTEÚDO – ESTRUTURAR DE ACORDO COM OS PONTOS SEGUINTES: 1) Nível/escala de medida das variáveis: Apresente a classificação de todas as variáveis que introduziu na base de dados, justificando o nível de medida de cada uma delas.
2) Preparação das variáveis para as análises definitivas Calcule com recurso ao menu transform os scores da escala Se aplicável, recodificar as variável de acordo com os pontos de corte
3) Estatísticas descritivas Determine as medidas de tendência central e de dispersão que considerar indicadas e interprete os resultados Determine correlações entre os itens e interprete os resultados
4) Análise psicométrica
Calcule a consistência interna Calcule a consistência temporal. Calcule a consistência inter juízes Estude a dimensionalidade
Apresente os resultados psicométricos e interprete-os de forma adequada
10
Guião para apresentação das características psicométricas de uma escala 5) Elaboração da apresentação
Titulo Equipa de investigação
Enquadramento
Apresentar da Escala A escala …..
Referencial teórico e mapa do construto
Trajetória de desenvolvimento DOMINIOS Desenvolvimento e revisão de itens
Estrutura do e conteúdo da escala
Pré-testes, estudo-piloto e aplicação da escala ….. Propriedades psicométricas avaliadas
Validade dimensional – análise fatorial exploratória Validade de construto – comparações de grupos extremos e teste de associação com construtos correlacionados Consistência interna e confiabilidade teste-reteste Coeficiente alfa de Cronbach, r, rho ou Kappa ponderado
Resultados preliminares
Limitações
Referências
11
Exercícios praticos
Módulo prático
Utilize sua base de dados e no SPSS faça as análises que considerar necessárias à para dar resposta as perguntas que se seguem e passe a informação para esta folha:
Qual o valor de KMO da escala? ______________________________
O que significa _________________________________________________________ _____________________________________________________________________
Qual o resultado do Bartlett test e o que significa _____________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________
O que mostra a análise das componentes principais com rotação varimax? _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________
12
Exercícios praticos
E os eigenvalues?
_____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________
13
Exercícios teoricos
1. O Psicólogo psicometrista possui, no seu âmbito de actuação e formação, características que lhe permitem manusear os testes psicológicos de acordo com alguns critérios básicos. Quais são a) Um curso superior b) Fidedignidade c) Validade d) Padronização e) Médias f) Avaliação psicológica
V
F
2. A psicometria é uma metodologia Quantitativa que por sua vez é conjunto de métodos que apela para procedimentos matemáticos, mesmo no estudo dos fenómenos sociais e humanos, cujo objectivo primordial é a) Estudo dos fenómenos sociais b) Estudo dos fenómenos psicológicos c) Estudo dos fenómenos humanos d) Matemática e) Cálculo f) Análise factorial
V
F
3. Como se chama a técnica para se reduzir o número de variáveis de uma base de dados, identificando o padrão de correlações ou de covariância entre elas e gerando um número menor de novas variáveis latentes, não observadas, calculadas a partir dos dados brutos a) R de pearson b) Análise das componentes principais c) Análise factorial d) Análise de clusters
V
F 14
Exercícios teoricos e) Alfa de cronbach f) Matriz anti-imagem
4.
V
F
V
F
Para que serve um KMO a) Para simbolizar Kaiser-Meyer-Olkin b) Medida de covariância c) Medida de fidedignidade d) Medida de adequação da análise fatorial e) Medida de adequação da amostra f) Para simbolizar Kruskal-Macnemar-Order
5.
Para que serve o Bartlett test a) Para saber em quantas dimensões se divide um teste b) É uma matriz de correlação c) Avaliar se a matriz de correlação da população é uma matriz de identidade d) Examinar a hipótese de que as variáveis não estão correlacionadas na população. e) Para avaliar a consistência temporal f) Para avaliar o tamanho da matriz
6. Numa consistência interna obteve um alfa foi 0,083. O que pode suscitar este resultado? a) Consistência interna muito boa b) Consistência interna boa c) Consistência interna razoável d) Consistência interna fraca
V
F 15
Exercícios teoricos e) Consistência interna inadmissível f) Consistência interna muito boa
7. Quais as fases que envolvem a construção de um teste psicológico em psicometria a) Construção dos itens b) Estudo da consistência interna c) Redução dos itens d) Padronização e) Aferição f) Validação
8.
V
F
V
F
Dos métodos que se seguem, quais são os psicométricos a) Teste reteste b) Alfa de Cronbach c) Consistência interna d) Correlação e) Metade-metade guttman f) Kuder-Richardson
9. No estudo da dimensionalidade, que método de rotação devo utilizar quando desejo encontrar factores independentes a) Promax b) rotação oblíqua c) Rotação ortogonal varimax promax
V
F 16
Exercícios teoricos d) direct oblimin e) guttman f) split-half
10. Quais os passos, no SPSS, que deve utilizar para proceder a uma análise factorial a) Analyse/data redution/ factor b) Pedir KMO c) Pedir o teste Barttlet d) Pedir a matriz anti-imagem e) Pedir o alfa de Cronbach f) Pedir matriz de correlações
V
F
11. Quais os passos que deve utilizar para verificar se o instrumento tem consistência interna a) Analyse/ scale/ reliability b) Inversão dos itens se houver itens invertidos c) Analyse/data redution/ factor d) Pedir o teste Barttlet e) Pedir a matriz anti-imagem f) Pedir o alfa de Cronbach
V
F
12. Quais os passos que deve utilizar para verificar se o instrumento tem consistência temporal
V
F 17
Exercícios teoricos a) Analyse/ scale/ reliability/split-half b) Pedir a matriz anti-imagem c) Pedir o alfa de cronbach d) Analyse/ Compare means/pair sample t test e) Analyse/data redution/ factor f) Passar o teste duas vezes ao mesmo sujeito
13. Quais os passos que deve utilizar para verificar se o instrumento tem consistência interjuizes a) Analyse/ scale/ reliability/split-half b) Pedir a matriz anti-imagem c) Pedir o alfa de cronbach d) Analyse/ Compare means/pair sample t test e) Analyse/data redution/ factor f) Passar o teste duas vezes ao mesmo sujeito
V
F
18
Exercícios teoricos
19