1. Doc. (Gén.). Capacité d’uninstrument à mesurer réellement ce qu’il doit mesurer, selon l’utilisation que l’on veut en faire. Qualité qu’a un examen ou un test de mesurer ce qu’il prétend mesurer. Un examen d’algèbre qui ne contient que des questions de terminologie ne peut prétendre mesurer « l’algèbre » __ BLOOM, B. S. (1969). TA fidélité; objectivité. = {validité concomitante/de construit/de contenu/prédictive}.
2. Doc. (Spéc.). Évaluation globale, fondée sur des preuves empiriques et sur un rationnel théorique, de l’adéquation et de la justesse des inférences et des actions issues des scores de test __ AUGER, R. et DASSA, C. (1992).
3. Rech. Qualité d’une recherche qui démontre vraiment ce qu’elle prétend démontrer. VA évaluation du curriculum, E; modèle, K; pensée scientifique, E; recherche théorique, B; relativisme cognitif, F; schème conceptuel, I; théorie, G. TA fidélité; objectivité. = {validité externe/interne}.
4. Sc. Mesure de la relation entre l’observation de la réalité et sa formulation. Pour réunir la perception et la conception, la science a inventé le concept de la validité et différentes modalités pour établir la relation Sujet-Objet __ OUELLET, A. (1994). VA théorie, F.
A. Nature. Les questions de validité peuvent concerner la représentativité du domaine mesuré ou le degré de relation avec d’autres variables. Il n’existe toutefois pas de façon unique de démontrer la validité d’un instrument : la validité est appréciée, jugée, inférée sur la base de plusieurs indications. Ces indications sont interdépendantes et concernent des aspects différents d’une même réalité même si, à des fins didactiques, il est d’usage commun d’identifier quatre types généraux de validité, à savoir : de contenu, de construit, concomitante et prédictive, ces deux derniers types appartenant à une classe commune de validité liée à un critère s’appuyant sur le calcul d’un coefficient de validité. D’autres termes sont aussi utilisés pour désigner des techniques ou des procédures particulières pour évaluer la validité : synthétique, discriminante, logique, rationnelle, empirique, factorielle.
B. Calcul. Les types de validité liée à un critère s’expriment en termes d’une corrélation entre les scores donnés par l’instrument et les mesures de rendement d’après un critère défini.
C. Validité/fidélité. Si nous savions qu’un instrument de mesure a la validité qui convient aux objectifs que nous poursuivons en l’utilisant, nous n’aurions pas à nous inquiéter de sa fidélité. L’instrument dont la validité est assurée reflète d’abord et avant tout la caractéristique qu’il est censé mesurer, avec un minimum de distorsion provenant d’autres facteurs, constants ou transitoires; nous pourrions, par conséquent, postuler qu’il possède également une fidélité satisfaisante. (...) Les calculs de validité portent à la fois sur les erreurs constantes et les erreurs dues au hasard; les calculs de fidélité, eux, ne tiennent compte, d’habitude, que des erreurs dues au hasard __ SELLTIZ, C. et al. (1977). Toutefois, un instrument non fidèle ne peut pas être valide, car on ne peut pas prétendre mesurer ce qu’on prétend faire si on ne le fait pas avec un minimum de précision.
D. Typologie. Toutes les sortes de validité peuvent se regrouper selon qu’elles soient internes ou externes et qu’elles concernent un instrument de mesure ou une recherche expérimentale.
E. Démarche évaluative. Face à une démarche évaluative qui implique des formes multiples de prise d’information et de décision de nature aussi bien rétroactive qu’interactive et proactive, il convient de rechercher une base théorique qui permettrait d’apprécier la validité des tests. (...) Une définition qui poserait la validité comme un concept unificateur du processus d’évaluation devrait refléter la totalité de la démarche évaluative (information-jugement-décision). Cela implique de définir ce concept en termes d’arguments de validation plutôt que d’exprimer exclusivement l’une ou l’autre des perspectives exprimées précédemment. Dans ce contexte, tout argument de validation doit tenir compte aussi bien des besoins des intervenants en ce qui concerne les aspects conceptuels et de mise en évidence empirique que des conséquences et des valeurs sociales. (...) Cette conception de la validité des tests dans une démarche évaluative permet d’évaluer chacune des étapes de cette démarche en regard des assises et des fonctions précédentes. L’évaluation de la validité des tests définit ainsi un processus permettant une dynamique rétroactive entre les preuves et les conséquences relatives à l’interprétation et à l’utilisation des tests. Cette dynamique permet une analyse intégrée de chacune des étapes de la démarche évaluative. Dans ce contexte, les trois types généraux de validité, pour importants qu’ils soient, ne sont que des éléments contribuant partiellement à la validité __ AUGER, R. et DASSA, C. (1992).
F. Assises. La validité des tests repose sur quatre points fondamentaux : 1. une preuve de la convergence (ou de la divergence) des scores du test vers une signification du construit; 2. une appréciation de la valeur des conséquences de l’interprétation des scores du test; 3. une preuve de la pertinence du construit et de son utilité dans des situations spécifiques; 4. une appréciation des conséquences sociales en relation avec les buts du testing. De plus, la validité des tests dans un contexte de démarche évaluative doit tenir compte autant de la fonction sommative que formative. D’où l’importance de préciser les dimensions collectives et individuelles de l’évaluation __ id.
G. Assises et fonctions. L’intégration des assises (preuves et conséquences) aux fonctions (interprétation et utilisation) peut se résumer à l’aide d’un tableau croisé. À partir de la représentation conjointe des fonctions et des assises de MESSICK (1988), nous proposons une configuration similaire, mais plus détaillée et qui explicite les aspects collectifs et individuels de la démarche évaluative. Qui plus est, le contenu de ce tableau reflète les caractères sommatif et formatif de l’évaluation. (...) Le cumul des données, l’estimation de divers indices docimologiques de même que l’interprétation des données qualitatives constituent les assises des preuves présidant à l’interprétation des résultats obtenus aux tests. L’appréciation (exprimée par un jugement) des décisions qui découlent des tests établit les assises des conséquences de l’interprétation. L’évaluation de l’utilisation des tests implique l’étude de la pertinence et de l’utilité des tests et nécessite des jugements concernant leurs valeurs en termes de signification et de finalité. L’approche empirique reliée à la pertinence et à l’utilité des tests donne ses assises aux preuves relatives aux aspects de la validité propres à l’utilisation du test. Tandis que l’approche par jugement confère des assises au regard des conséquences sociales et l’utilisation des tests __ id.
FONCTIONS
INTERPRÉTATION
UTILISATION
COLLECTIVE
INDIVIDUELLE
COLLECTIVE
INDIVIDUELLE
A
S
S
I
S
E
S
EMPIRIQUES
VALIDITÉ : de construit de contenu concomitante discriminante
Consistance des patrons de réponses.
Diagnostic des erreurs caractéristiques.
Généralisation de la compétence scolaire dans le cadre du domaine de référence.
VALIDITÉ : reliée à un critère; prédicitive; écologique.
Fonctionnement différencié des items.
Capacité des diverses stratégies de testing à diagnostiquer les erreurs caractéristiques.
Capacité à identifier des causes d’erreurs possibles.
CONSÉQUENCES
/
DÉCISIONS
Règles de décision.
Poids des composantes.
Établissement de critères de passage ou score de césure.
Établissement d’un intervalle de confiance autour des critères décisionnels.
Choix des juges et du protocole de compétence.
Adéquation globale au profil attendu de compétence scolaire.
Adéquation du suivi à apporter en vue d’assurer une progression constante de l’élève dans ses apprentissages.
Adéquation au profil attendu de compétence scolaire.
Pertinence des stratégies de testing utilisées.
Pertinence et cohérence dans le suivi à apporter pour assurer une progression constante de l’élève dans ses apprentissages.
Pertinence et cohérence des décisions en regard des finalités du testing.
Pertinence et cohérence de la méthodologie utilisée (incluant les procédures de transformation des notes).
Pertinence et cohérence des décisions concernant les populations scolaires au regard des finalités du testing.
Validité des tests dans une démarche évaluative __ AUGER, R. et DASSA, C. (1992)
H. Validité de construit et de contenu. Selon cette conception de la validité, la pertinence, l’interprétation et l’utilité des scores de test sont indissociables et doivent être intégrées au contexte de la démarche évaluative. Notons que les études empiriques portant sur la validité de construit ou de contenu touchent nécessairement à ces trois aspects. Ce qui signifie que tout test en éducation doit se référer à un domaine afin d’assurer une interprétation pertinente des résultats. Bien que ces deux formes de validité (de construit et de contenu) ne couvrent qu’une partie du concept de validité défini ci-haut, elles n’en constituent pas moins des composantes essentielles d’une conception intégrée de la validité __ id.
I. Inférence. L’inférence dépend de la signification à accorder aux scores. Bien que cette signification repose sur la validité de contenu, la qualité de l’inférence est liée aussi à la qualité des preuves empiriques telles que la consistance des réponses ou bien la valeur de corrélations pertinentes __ id.
I. CN : coefficient de *; critère de *; indice de * (d’un item).