SLIDE 1 CAT ¡for ¡Passage-‑Based ¡Reading ¡Assessments ¡with ¡ Complex ¡Test ¡Specifica=ons: ¡ ¡ A ¡Shadow ¡Test ¡Approach ¡
Seung ¡W. ¡Choi, ¡Hao ¡Ren, ¡& ¡Wim ¡J. ¡van ¡der ¡Linden ¡ ¡ McGraw-‑Hill ¡Educa=on ¡CTB ¡
2015 ¡Na=onal ¡Conference ¡on ¡Student ¡Assessment, ¡June ¡22-‑24, ¡San ¡Diego, ¡CA ¡
SLIDE 2 Establishing ¡Content ¡Validity ¡
- Establishing ¡content ¡validity ¡usually ¡takes ¡the ¡form ¡of ¡
professional ¡judgments ¡about ¡the ¡alignment ¡of ¡item ¡content ¡ to ¡the ¡domain ¡of ¡interest ¡and ¡specific ¡content ¡standards. ¡It ¡ also ¡describes ¡and ¡documents ¡the ¡content ¡standards ¡to ¡be ¡ included ¡in ¡the ¡test ¡and ¡the ¡representa2veness ¡with ¡which ¡ the ¡tasks ¡cover ¡the ¡domain ¡(Messick, ¡1989). ¡
- “Content ¡representa2on ¡is ¡the ¡only ¡aspect ¡of ¡valida2on ¡that ¡
can ¡be ¡completed ¡prior ¡to ¡administering ¡the ¡test ¡and ¡ repor2ng ¡results. ¡If ¡this ¡process ¡yields ¡disappoin2ng ¡results, ¡ there ¡is ¡s2ll ¡2me ¡to ¡recoup” ¡(Crocker, ¡2003) ¡
SLIDE 3 Content ¡Validity ¡for ¡CAT ¡
- Having ¡an ¡item ¡pool ¡with ¡adequate ¡alignment ¡to ¡and ¡
coverage ¡of ¡the ¡required ¡content ¡standards ¡is ¡a ¡prerequisite ¡ but ¡not ¡a ¡sufficient ¡condi1on ¡for ¡establishing ¡the ¡content ¡ validity ¡of ¡CAT. ¡
- A ¡key ¡concern ¡and ¡a ¡poten=al ¡threat ¡to ¡validity ¡in ¡CAT ¡is ¡the ¡
lack ¡of ¡control ¡over ¡the ¡construct ¡being ¡measured ¡by ¡ individual ¡CATs ¡rendered ¡in ¡real ¡=me. ¡
- CAT ¡with ¡item ¡sets, ¡such ¡as ¡passage-‑based ¡item ¡sets ¡in ¡
Reading ¡assessments ¡must ¡address ¡an ¡added ¡layer ¡of ¡ complexi1es ¡due ¡to ¡the ¡constraints ¡imposed ¡on ¡item ¡sets ¡as ¡ well ¡as ¡those ¡on ¡items. ¡
SLIDE 4 Objec=ves ¡
- In ¡this ¡presenta=on, ¡we ¡will ¡demonstrate ¡how ¡Shadow ¡Test ¡
approach ¡to ¡CAT ¡(“Shadow ¡CAT”) ¡can ¡effec=vely ¡address ¡ complex ¡content ¡constraints ¡and ¡test ¡blueprint ¡requirements ¡ for ¡Reading ¡assessments ¡with ¡passage-‑based ¡item ¡sets. ¡ ¡
- In ¡addi=on ¡to ¡the ¡standard ¡item-‑level ¡adap1ve ¡tes1ng ¡
available ¡under ¡Shadow ¡CAT, ¡we ¡will ¡demonstrate ¡how ¡ simple, ¡addi=onal ¡constraints ¡can ¡render ¡on-‑the-‑fly ¡mul1-‑ stage ¡test ¡(MST) ¡within ¡the ¡same ¡framework. ¡ ¡
- We ¡will ¡then ¡present ¡some ¡empirical ¡results ¡highligh=ng ¡the ¡
rela=ve ¡efficiency ¡and ¡prac=cal ¡benefits ¡of ¡on-‑the-‑fly ¡MST ¡in ¡ comparison ¡to ¡full ¡item-‑level ¡adap=ve ¡tes=ng. ¡ ¡
SLIDE 5
Best ¡things ¡come ¡in ¡small ¡packages… ¡
SLIDE 6
CAT ¡with ¡Discrete ¡Items ¡ 1 ¡ 2 ¡ 1 ¡
SLIDE 7
CAT ¡with ¡Item ¡Sets ¡ 1 ¡ 2 ¡ 1 ¡
SLIDE 8
+ ¡Complex ¡Constraints ¡ 1 ¡ 2 ¡ 1 ¡
SLIDE 9 + ¡Large ¡Item ¡sets ¡
- Using ¡passages ¡with ¡lots ¡of ¡
items, ¡covering ¡a ¡wide ¡ range ¡of ¡difficulty ¡levels, ¡ runs ¡counter ¡to ¡the ¡ adapta=on ¡and ¡ effec=veness ¡of ¡CAT. ¡
- Item ¡sets ¡may ¡contain ¡
sisters, ¡cousins, ¡or ¡enemies. ¡
SLIDE 10
Adapta=on ¡within ¡Item ¡sets ¡
SLIDE 11
Number ¡of ¡Items ¡within ¡Passages ¡
SLIDE 12
Item ¡Difficul=es ¡within ¡Passages ¡
SLIDE 13 Within-‑Passage ¡Adapta=on ¡ ¡
- Item ¡difficulty ¡varia=on ¡within ¡passages ¡
– Varia=on ¡in ¡item ¡difficul=es ¡within ¡passages ¡may ¡approach ¡ that ¡for ¡the ¡en=re ¡test. ¡
- Limited ¡allowable ¡naviga=ons ¡
– Allowing ¡for ¡moving ¡forward/backward ¡to ¡preview ¡items ¡and ¡ review ¡previous ¡responses ¡within ¡passages ¡is ¡highly ¡desired ¡ but ¡not ¡conducive ¡to ¡adapta=on ¡within ¡passages. ¡ ¡
- Ordering ¡of ¡items ¡within ¡passages ¡
– Global ¡ques=ons ¡before ¡ques=ons ¡on ¡specific ¡details ¡ – Order ¡of ¡subsec=ons ¡referenced ¡
SLIDE 14 Maximum ¡ Measurement ¡ Precision ¡ Content ¡ Psychometric ¡ Constraints ¡ Sequen=al ¡ Selec=on ¡ Simultaneous ¡ Selec=on ¡
Shadow ¡CAT ¡
Shadow ¡Test ¡Approach ¡to ¡CAT ¡
SLIDE 15 Previously ¡administered ¡item ¡ n-‑1 ¡
. ¡. ¡. ¡
1 ¡ 2 ¡ n ¡ 3 ¡ Item ¡Posi=on ¡ 4 ¡
Item-‑Level ¡Adap=ve ¡
SLIDE 16 n-‑4 ¡
. ¡. ¡. ¡
1 ¡ n ¡ Item ¡Posi=on ¡ … ¡ … ¡ 6 ¡ 10 ¡ … ¡ 5 ¡ 11 ¡ … ¡ 15 ¡
On-‑the-‑fly ¡MST ¡
SLIDE 17 n-‑1 ¡ 1 ¡ 2 ¡ n ¡ 3 ¡ Item ¡Posi=on ¡ 4 ¡
. ¡. ¡. ¡
Linear ¡on-‑the-‑fly ¡
SLIDE 18 Empirical ¡Study ¡
1. N ¡= ¡1,000 ¡normal ¡deviates ¡from ¡~N(0,1); ¡and ¡ ¡ 2. n ¡= ¡500 ¡replica=ons ¡at ¡θ ¡= ¡-‑2.5, ¡-‑1.5, ¡…, ¡2.5 ¡for ¡a ¡total ¡N ¡= ¡5,500. ¡ ¡
- Item ¡pool ¡– ¡modeled ¡aner ¡the ¡distribu=on ¡of ¡Smarter ¡Balanced ¡
Reading ¡item ¡aoributes ¡
- Test ¡specifica1ons ¡– ¡adapted ¡from ¡Smarter ¡Balanced ¡Reading ¡claim ¡
- CAT ¡configura1ons ¡
1. LOFT ¡at ¡True ¡θ ¡ 2. Standard ¡Shadow ¡CAT ¡ 3. On-‑the-‑fly ¡MST ¡via ¡Shadow ¡CAT ¡
1. RMSE ¡ 2. Bias ¡
SLIDE 19
Item ¡Pool ¡
SLIDE 20
Item ¡Pool ¡Informa=on ¡Func=on ¡
SLIDE 21
Test ¡Blueprint ¡Specifica=ons ¡
SLIDE 22
Results ¡
SLIDE 23
Observed ¡Counts ¡by ¡Tes=ng ¡Formats ¡
SLIDE 24
Sample ¡1 ¡(N ¡= ¡1,000) ¡
SLIDE 25
RMSE ¡for ¡Three ¡Tes=ng ¡Formats ¡
SLIDE 26
Bias ¡for ¡Three ¡Tes=ng ¡Formats ¡
SLIDE 27 Conclusions ¡
- Shadow ¡CAT ¡provides ¡a ¡flexible ¡framework ¡for ¡adap=ve ¡tes=ng ¡
solu=ons ¡based ¡on ¡item ¡sets ¡and ¡requiring ¡complex ¡constraints. ¡
- On-‑the-‑fly ¡MST ¡is ¡an ¡effec=ve ¡solu=on ¡to ¡some ¡of ¡the ¡prac=cal ¡
concerns ¡pertaining ¡to ¡passage-‑based ¡CAT ¡(e.g., ¡adap=ng ¡within ¡ item ¡sets, ¡allowing ¡for ¡item ¡p/review). ¡ ¡
- Compared ¡to ¡tradi=onal ¡fixed ¡MSTs, ¡typically ¡involving ¡two ¡or ¡three ¡
stages, ¡it ¡is ¡clear ¡that ¡the ¡degree ¡of ¡adapta=on ¡of ¡on-‑the-‑fly ¡MST ¡ with ¡4-‑7 ¡flexible ¡stages ¡using ¡dynamically ¡and ¡op1mally ¡ constructed ¡modules ¡can ¡be ¡substan=ally ¡higher. ¡ ¡
- The ¡poten=al ¡benefits ¡of ¡on-‑the-‑fly ¡MST ¡in ¡passage-‑based ¡reading ¡
assessments ¡depends ¡on ¡the ¡depth ¡of ¡item ¡pools ¡and ¡the ¡ability ¡to ¡ assemble ¡test ¡modules ¡in ¡real ¡1me ¡and ¡in ¡strict ¡compliance ¡with ¡all ¡ test ¡blueprint ¡specifica=ons ¡without ¡sacrificing ¡the ¡measurement ¡
SLIDE 28 Conclusions ¡
- Having ¡a ¡robust ¡pool ¡of ¡items ¡and ¡passages ¡is ¡necessary ¡but ¡
not ¡sufficient ¡for ¡ensuring ¡content ¡validity, ¡rendering ¡ individual ¡CATs ¡that ¡conform ¡strictly ¡to ¡the ¡test ¡specifica=ons. ¡
- ¡Unless ¡the ¡CAT ¡engine ¡has ¡a ¡failsafe ¡mechanism ¡to ¡guarantee ¡
the ¡full ¡conformance ¡to ¡the ¡test ¡specifica=ons, ¡there ¡is ¡no ¡ assurance ¡that ¡every ¡instance ¡of ¡CAT ¡is ¡rendered ¡to ¡the ¡test ¡ specifica=ons. ¡ ¡
SLIDE 29 Discussion ¡
- Test ¡specifica=ons ¡are ¡primarily ¡to ¡ensure ¡a ¡certain ¡level ¡of ¡
uniformity ¡in ¡content-‑related ¡test ¡aoributes ¡desired ¡among ¡ individual ¡CATs ¡rendered. ¡
- However, ¡simply ¡balancing ¡content ¡categories ¡may ¡only ¡touch ¡
the ¡surface—face ¡validity. ¡
- Informa1on ¡balancing ¡may ¡also ¡be ¡desired ¡if ¡the ¡amount ¡of ¡
informa=on ¡from ¡different ¡content ¡categories ¡should ¡be ¡ balanced ¡to ¡have ¡a ¡precise ¡control ¡over ¡the ¡test ¡construct ¡ being ¡measured ¡by ¡a ¡CAT. ¡
- The ¡advent ¡of ¡cloud-‑based ¡compu=ng ¡techniques ¡and ¡the ¡
speed ¡of ¡modern ¡mixed ¡integer ¡programming ¡solvers ¡have ¡ enabled ¡us ¡to ¡develop ¡a ¡solu=on ¡that ¡is ¡not ¡only ¡op=mal ¡but ¡ also ¡prac=cal ¡for ¡large-‑scale ¡implementa=ons. ¡ ¡
SLIDE 30
THANK ¡YOU! ¡
SEUNG.CHOI@CTB.COM ¡