Experimental ¡Models ¡for ¡Valida3ng ¡ Technology ¡
Marvin ¡V. ¡Zelkowitz ¡ ¡
P ¡R ¡E ¡S ¡E ¡N ¡T ¡E ¡D ¡BY ¡: ¡Djedjiga ¡OuAoua ¡ ¡
Experimental Models for Valida3ng Technology Marvin V. - - PowerPoint PPT Presentation
Experimental Models for Valida3ng Technology Marvin V. Zelkowitz P R E S E N T E D BY : Djedjiga OuAoua INTRODUCTION Effec3ve
Experimental ¡Models ¡for ¡Valida3ng ¡ Technology ¡
Marvin ¡V. ¡Zelkowitz ¡ ¡
P ¡R ¡E ¡S ¡E ¡N ¡T ¡E ¡D ¡BY ¡: ¡Djedjiga ¡OuAoua ¡ ¡
INTRODUCTION ¡
¡ ¡ ¡ ¡
Effec3ve ¡soBware ¡(new ¡technology) ¡: ¡ ¡we ¡can ¡have ¡these ¡aEributes ¡ low ¡cost, ¡reliable, ¡rapidly ¡developed, ¡safe, ¡or ¡has ¡some ¡other ¡relevant ¡
¡ ¡ One ¡technique ¡is ¡more ¡or ¡less ¡effec3ve ¡than ¡another ¡ Need ¡Measure ¡each ¡soLware ¡aEribute ¡ number ¡of ¡failures ¡per ¡day, ¡ errors ¡found ¡during ¡development ¡ MTBF ¡(mean ¡Ame ¡between ¡failures) ¡ ¡ count ¡of ¡the ¡number ¡of ¡errors ¡found ¡during ¡tesAng ¡ ¡: ¡ ¡are ¡there ¡errors ¡ remaining ¡to ¡be ¡found ¡? ¡ ¡ ¡ ¡ ¡ ¡……. ¡
We ¡should ¡do ¡experimenta3on: ¡ ¡
¡ ¡ Now ¡In ¡most ¡case ¡: ¡the ¡creator ¡of ¡the ¡technology ¡ ¡
¡ ¡ we ¡need ¡to ¡do ¡more ¡than ¡simply ¡say, ¡“I ¡tried ¡it, ¡and ¡I ¡like ¡it.” ¡
they ¡perform ¡“experiments” ¡to ¡show ¡how ¡effecAve ¡the ¡technology ¡is. ¡
INTRODUCTION ¡
Experimenta3on ¡: ¡is ¡a ¡crucial ¡part ¡of ¡aEribute ¡evaluaAon ¡and ¡can ¡help ¡ determine ¡whether ¡methods ¡used ¡in ¡accordance ¡with ¡some ¡theory ¡during ¡ product ¡development ¡will ¡result ¡in ¡soLware ¡being ¡as ¡effecAve ¡as ¡necessary ¡
¡ ¡ ¡
How ¡to ¡experiment ¡: ¡ ¡ ¡
to ¡the ¡same ¡treatment, ¡in ¡order ¡to ¡obtain ¡a ¡staAsAcally ¡significant ¡result ¡
¡ ¡
One ¡type ¡of ¡experimentaAon: ¡ ¡ ¡Data ¡collecAon ¡and ¡analysis ¡ ¡ Others ¡approaches ¡grouped ¡in ¡4 ¡general ¡categories ¡(4 ¡categories ¡of ¡ experimenta3on): ¡ ¡ ScienAfic ¡method ¡: ¡test ¡alternaAve ¡variaAons ¡of ¡the ¡hypothesis ¡ ¡ Engineering ¡method ¡: ¡test ¡a ¡soluAon ¡to ¡a ¡ ¡hypothesis, ¡improve ¡the ¡soluAon ¡ ¡ Empirical ¡method ¡: ¡validate ¡a ¡given ¡hypothesis ¡by ¡a ¡staAsAcal ¡method. ¡ Data ¡is ¡collected ¡to ¡verify ¡the ¡hypothesis ¡ AnalyAcal ¡method ¡ ¡: ¡ ¡we ¡developed ¡a ¡formal ¡theory ¡ ¡
HOW ¡DO ¡WE ¡EXPERIMENT? ¡
Scien3fic ¡method ¡ ¡
hEp://www.sciencebuddies.org/science-‑fair-‑projects/project_scienAfic_method.shtml ¡ ¡ ¡
hEp://ssds-‑science5774.weebly.com/scienAfic-‑method-‑and-‑the-‑engineering-‑design-‑ process.html ¡ ¡
Engineering ¡method ¡
hEps://en.wikipedia.org/wiki/Empirical_research ¡ ¡ ¡ ¡
Empirical ¡method ¡ ¡
Forming ¡hypothesis. ¡
consequences ¡of ¡hypothesis ¡as ¡ testable ¡predicAons. ¡
with ¡new ¡empirical ¡material. ¡
common ¡: ¡ ¡collecAon ¡of ¡data ¡on ¡the ¡development ¡process ¡or ¡the ¡ product ¡itself ¡ ¡ ¡ ¡ In ¡an ¡experiment, ¡a ¡researcher ¡manipulates ¡one ¡or ¡more ¡ variables ¡: ¡ ¡
¡ ¡
HOW ¡DO ¡WE ¡EXPERIMENT? ¡
1-‑Factor ¡ ¡(independent ¡variable): ¡ ¡is ¡explanatory ¡variable ¡manipulated ¡by ¡the ¡
CombinaAons ¡of ¡factor ¡levels ¡are ¡called ¡treatments. ¡ ¡ hEp://staErek.com/experiments/what-‑is-‑an-‑experiment.aspx?Tutorial=AP ¡ ¡
possible ¡effects ¡of ¡Vitamin ¡C ¡and ¡ Vitamin ¡E ¡on ¡health. ¡ ¡
2-‑ ¡Dependent ¡variable. ¡The ¡dependent ¡variable ¡in ¡this ¡experiment ¡would ¡be ¡some ¡ measure ¡of ¡health ¡(annual ¡doctor ¡bills, ¡number ¡of ¡colds ¡caught ¡in ¡a ¡year, ¡number ¡of ¡days ¡ hospitalized, ¡etc.). ¡ 3-‑Experimental ¡units ¡(subject). ¡The ¡recipients ¡of ¡experimental ¡treatments ¡: ¡people ¡ (parAcipants), ¡plants, ¡animals ¡(subjects), ¡ ¡lab, ¡. ¡
HOW ¡DO ¡WE ¡EXPERIMENT? ¡
The ¡goal ¡of ¡an ¡experiment ¡: ¡
subjects ¡ ¡
1-‑Replica3on. ¡ReplicaAon ¡refers ¡to ¡the ¡pracAce ¡of ¡assigning ¡each ¡ treatment ¡to ¡many ¡experimental ¡units. ¡ ¡ 2-‑ ¡influence ¡: ¡ ¡we ¡need ¡to ¡know ¡the ¡impact—that ¡is, ¡the ¡influence— that ¡a ¡given ¡experimental ¡design ¡has ¡on ¡the ¡results ¡of ¡an ¡experiment. ¡ ¡ ¡ They ¡Classify ¡: ¡ ¡Methods ¡passive ¡and ¡Methods ¡acAve ¡ 3-‑Local ¡Control ¡: ¡refers ¡to ¡steps ¡taken ¡to ¡reduce ¡the ¡effects ¡of ¡extraneous ¡variables ¡(i.e., ¡ variables ¡other ¡than ¡the ¡independent ¡variable ¡and ¡the ¡dependent ¡variable). ¡ ¡
Characteris3cs ¡of ¡a ¡Well-‑Designed ¡Experiment ¡
3-‑ ¡Temporal ¡proper3es ¡: ¡Data ¡collecAon ¡may ¡be ¡historical ¡(for ¡example, ¡ archaeological) ¡or ¡current ¡(for ¡example, ¡monitoring ¡a ¡current ¡project). ¡Historical ¡ data ¡will ¡certainly ¡be ¡passive, ¡but ¡may ¡be ¡missing ¡just ¡the ¡informaAon ¡we ¡need ¡to ¡ come ¡to ¡a ¡conclusion ¡
Consider ¡this ¡example. ¡A ¡drug ¡manufacturer ¡tests ¡a ¡new ¡cold ¡ medicine ¡with ¡200 ¡parAcipants ¡-‑ ¡100 ¡men ¡and ¡100 ¡women. ¡ The ¡men ¡receive ¡the ¡drug, ¡and ¡the ¡women ¡do ¡not. ¡At ¡the ¡ end ¡of ¡the ¡test ¡period, ¡the ¡men ¡report ¡fewer ¡colds. ¡ it ¡is ¡impossible ¡: ¡ ¡to ¡say ¡whether ¡the ¡drug ¡was ¡effecAve. ¡ we ¡don’t ¡consider ¡: ¡
circulaAng ¡during ¡the ¡experiment ¡ ¡
Characteris3cs ¡of ¡a ¡Well-‑Designed ¡Experiment ¡
approaches ¡ ¡have ¡been ¡used ¡: ¡ ¡ ¡
¡ ¡ Valida3on ¡Models ¡: ¡They ¡idenAfy ¡ ¡12 ¡methods ¡used ¡by ¡researchers ¡to ¡develop ¡
new ¡technology ¡that ¡have ¡been ¡used ¡in ¡the ¡computer ¡field ¡: ¡
10. SyntheAc ¡: ¡controlled ¡ ¡ 11. Dynamic ¡analysis ¡: ¡controlled ¡ ¡ 12. SimulaAon ¡: ¡controlled ¡ ¡
VALIDATION ¡MODELS ¡ ¡
Each ¡approaches ¡use ¡one ¡data ¡collecAon ¡methods: ¡
completed, ¡The ¡data ¡already ¡exist ¡
for ¡staAsAcal ¡validity ¡of ¡the ¡ ¡results. ¡ ¡Involve ¡study ¡of ¡alternaAve ¡ strategies ¡to ¡determine ¡the ¡effecAveness ¡of ¡one ¡method ¡as ¡compared ¡ to ¡other ¡methods. ¡ ¡
results ¡
VALIDATION ¡MODELS ¡ ¡
OBSERVATIONAL ¡METHODS ¡ ¡ project ¡monitoring ¡ case ¡study ¡ ¡asserAon ¡ field ¡study ¡
Projects ¡monitoring ¡: ¡ ¡ ¡ ¡ ¡ ¡ ¡
development ¡
do ¡not ¡aEempt ¡to ¡influence ¡or ¡redirect ¡the ¡development ¡process ¡or ¡ methods ¡being ¡used. ¡
an ¡experimental ¡design ¡is ¡constructed ¡aLer ¡the ¡project ¡is ¡finished, ¡then ¡we ¡ call ¡this ¡a ¡historical ¡lessons-‑learned ¡study. ¡ A ¡problem ¡
The ¡solu3on ¡
acAviAes ¡in ¡an ¡organizaAon. ¡ ¡
OBSERVATIONAL ¡METHODS ¡ ¡
Case ¡study: ¡ ¡
to ¡react ¡to ¡certain ¡issues ¡that ¡emerge ¡in ¡the ¡study. ¡ ¡ ¡ Strength ¡ ¡: ¡
experimental ¡data ¡
Weakness ¡ ¡ ¡ ¡
must ¡be ¡sacrificed. ¡ExperimentaAon ¡may ¡be ¡a ¡risk ¡that ¡management ¡is ¡not ¡willing ¡to ¡ undertake ¡
¡ ¡
OBSERVATIONAL ¡METHODS ¡ ¡
Asser3on ¡: ¡ ¡ ¡
subjects ¡of ¡study ¡
alternaAves ¡. ¡
between ¡two ¡treatments, ¡but ¡to ¡show ¡the ¡ superiority ¡of ¡one. ¡ ¡ OBSERVATIONAL ¡METHODS ¡ ¡
Field ¡study ¡: ¡ ¡
¡ ¡
data ¡in ¡a ¡field ¡study. ¡ ¡ ¡
¡ ¡
informaAon ¡ ¡ ¡ ¡ ¡
pracAces ¡without ¡changing ¡its ¡processes ¡ ¡ ¡ ¡ ¡
new ¡tool ¡and ¡those ¡don’t ¡use ¡it ¡in ¡order ¡to ¡determine ¡differences. ¡ ¡
OBSERVATIONAL ¡METHODS ¡ ¡
HISTORICAL ¡METHODS ¡ ¡
Literature ¡search ¡: ¡ ¡
are ¡publicly ¡available ¡
published ¡on ¡similar ¡projects ¡
¡ ¡ weakness ¡ ¡
posiAve ¡results. ¡Contradictory ¡results ¡oLen ¡are ¡not ¡reported ¡
HISTORICAL ¡METHODS ¡ ¡
Legacy ¡data ¡: ¡ ¡a ¡form ¡of ¡soLware ¡archaeology ¡/ ¡data ¡mining ¡ ¡
delivering ¡a ¡finished ¡product ¡ ¡
HISTORICAL ¡METHODS ¡ ¡
Lessons ¡learned ¡ ¡
that ¡can ¡be ¡used ¡to ¡improve ¡future ¡developments. ¡
understand ¡the ¡effects ¡of ¡methods ¡used. ¡ ¡ Weakness ¡ ¡
each ¡successive ¡document. ¡We ¡never ¡seem ¡to ¡learn ¡from ¡our ¡previous ¡mistakes. ¡
HISTORICAL ¡METHODS ¡ ¡
Sta3c ¡analysis ¡: ¡ ¡
includes ¡measuring ¡the ¡development ¡process.) ¡
Weakness ¡ ¡
the ¡aEribute ¡of ¡interest. ¡ ¡
HISTORICAL ¡METHODS ¡ ¡
Replicated ¡ syntheAc ¡environment ¡ dynamic ¡analysis ¡ ¡ ¡simulaAon ¡ CONTROLLED ¡METHODS ¡ ¡
¡ ¡
Replicated ¡experiment ¡
they ¡collect ¡data ¡on ¡both ¡approaches ¡and ¡compare ¡the ¡results. ¡ ¡
the ¡method ¡under ¡consideraAon. ¡ ¡ ¡ ¡ Problem ¡ ¡ ¡
that ¡they ¡are ¡a ¡part ¡of ¡a ¡replicated ¡experiment ¡. ¡ ¡ ¡ Solu3on ¡ ¡
CONTROLLED ¡METHODS ¡ ¡
Synthe3c ¡environment ¡experiments ¡
¡ ¡
environment ¡experiments). ¡ ¡In ¡the ¡large ¡projects ¡ ¡ ¡
method ¡being ¡modified. ¡randomize ¡personnel ¡from ¡a ¡homogeneous ¡pool ¡of ¡subjects, ¡fix ¡the ¡ duraAon ¡of ¡the ¡experiment, ¡and ¡monitor ¡as ¡many ¡variables ¡as ¡possible. ¡ ¡
Problem ¡ ¡
studies ¡
problems ¡actually ¡encountered ¡in ¡an ¡industrial ¡setng. ¡
CONTROLLED ¡METHODS ¡ ¡
Dynamic ¡analysis ¡
methods ¡we ¡have ¡so ¡evaluate ¡the ¡development ¡process.) ¡
product’s ¡features ¡can ¡be ¡demonstrated ¡and ¡evaluated ¡when ¡it ¡executes. ¡ ¡
understand ¡the ¡design ¡of ¡the ¡product ¡itself. ¡ ¡ Weakness ¡ ¡
behavior ¡in ¡unpredictable ¡ways. ¡ ¡
generalized ¡to ¡other ¡data ¡sets. ¡ ¡
CONTROLLED ¡METHODS ¡ ¡
Simula3on ¡
real ¡environment. ¡ ¡
run ¡than ¡the ¡full ¡product ¡in ¡the ¡real ¡environment. ¡ ¡
Weakness ¡ ¡
CONTROLLED ¡METHODS ¡ ¡
hEps://books.google.ca/books?id=tAYaNNaneuMC&pg=PA236&lpg=PA236&dq=an +informal+%28asserAon%29+form+of+va.............. ¡
MODEL ¡VALIDATION ¡
community’s ¡idea ¡of ¡experimental ¡design ¡and ¡data ¡collec/on, ¡we ¡examined ¡ ¡612 ¡ so4ware ¡engineering ¡publica/ons ¡covering ¡three ¡different ¡years: ¡1985, ¡1990, ¡and ¡1995. ¡ ¡
claims ¡in ¡the ¡paper. ¡For ¡completeness ¡we ¡added ¡the ¡following ¡two ¡classificaAons: ¡ ¡
data ¡used ¡as ¡a ¡demonstraAon ¡of ¡concept ¡( ¡“proof ¡of ¡concept,” ¡) ¡ a ¡true ¡aEempt ¡at ¡validaAon ¡of ¡their ¡results. ¡
phase ¡
MODEL ¡VALIDATION ¡
MODEL ¡VALIDATION ¡
Quan3ta3ve ¡observa3ons ¡ ¡
¡ ¡ assessed ¡: ¡612 ¡papers ¡and ¡judged ¡50 ¡to ¡be ¡“not ¡applicable.”= ¡562 ¡papers ¡examined ¡ ¡ ¡ ¡
Case ¡studies ¡ ¡and ¡lessons ¡learned ¡ ¡: ¡the ¡most ¡prevalent ¡validaAon ¡, ¡ ¡10 ¡percent ¡each ¡ ¡ AsserAon ¡method ¡: ¡a ¡ ¡third ¡of ¡the ¡papers ¡ ¡ ¡ SimulaAon ¡method ¡: ¡5 ¡percent ¡ ¡ Remaining ¡techniques ¡: ¡1-‑3 ¡percent ¡ ¡each ¡(percent ¡of ¡the ¡paper ¡) ¡
A ¡third ¡of ¡the ¡papers ¡had ¡no ¡experimental ¡validaAon ¡: ¡36 ¡% ¡1985 ¡ ¡ ¡29 ¡% ¡1990 ¡ ¡ ¡19 ¡% ¡1995 ¡. ¡ ¡
¡ ¡ ¡Tichy ¡classified ¡some ¡papers ¡into ¡: ¡ ¡formal ¡theory, ¡design ¡and ¡modeling, ¡empirical ¡work, ¡ hypothesis ¡tesAng, ¡and ¡other. ¡ ¡ ¡His ¡major ¡observaAon ¡was ¡: ¡they ¡are ¡consistent ¡with ¡our ¡
¡ ¡ They ¡start ¡Comparing ¡the ¡result ¡with ¡others ¡disciplines ¡: ¡physics ¡, ¡economics ¡, ¡ behavioral ¡sciences. ¡ ¡They ¡found ¡: ¡archival ¡research ¡journals ¡do ¡not ¡differ ¡materially ¡ from ¡archival ¡journals ¡(hard ¡sciences) ¡
MODEL ¡VALIDATION ¡
Qualita3ve ¡observa3ons ¡: ¡ ¡ ¡
¡ ¡
Authors ¡oLen ¡fail ¡to ¡state ¡their ¡goals ¡clearly ¡or ¡to ¡point ¡to ¡the ¡value ¡ that ¡their ¡method ¡or ¡tool ¡adds ¡to ¡the ¡experimentaAon ¡process. ¡ ¡ ¡ ¡ Authors ¡oLen ¡fail ¡to ¡state ¡how ¡they ¡validate ¡their ¡hypotheses ¡: ¡ secAons ¡“validaAon” ¡or ¡“experimental ¡results.” ¡ ¡Not ¡found ¡ ¡ Authors ¡oLen ¡use ¡terms ¡very ¡loosely ¡: ¡ ¡ ¡“case ¡study” ¡, ¡“controlled ¡ experiment” ¡, ¡“lessons ¡learned” ¡ ¡ ¡
¡ ¡ AEempted ¡to ¡Classify ¡each ¡paper ¡by ¡what ¡the ¡authors ¡did, ¡not ¡by ¡what ¡they ¡called ¡their ¡
MODEL ¡VALIDATION ¡
¡ ¡ ¡ ¡
Dilemma ¡ ¡: ¡The ¡papers ¡are ¡influenced ¡greatly ¡by ¡the ¡publicaAon’s ¡editor ¡or, ¡in ¡the ¡case ¡of ¡a ¡
conference, ¡by ¡the ¡program ¡commiEee. ¡ Other ¡factor ¡: ¡ ¡In ¡the ¡study, ¡the ¡editors ¡and ¡program ¡commiEees ¡from ¡1985, ¡1990, ¡and ¡1995 ¡ were ¡all ¡different. ¡ ¡ ¡ ¡ This ¡difference ¡: ¡may ¡have ¡affected ¡our ¡outcome. ¡ ¡ The ¡only ¡way ¡to ¡try ¡ ¡to ¡understand ¡how ¡research ¡in ¡soLware ¡engineering ¡is ¡validated ¡is ¡via ¡ the ¡publicaAons ¡on ¡soLware ¡engineering ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
MODEL ¡VALIDATION ¡
¡ ¡
too ¡many ¡papers ¡have ¡no ¡experimental ¡validaAon ¡at ¡all ¡ ¡too ¡many ¡papers ¡use ¡an ¡informal ¡form ¡of ¡validaAon ¡(asserAon) ¡ ¡ ¡researchers ¡use ¡lessons ¡learned ¡and ¡case ¡studies ¡about ¡10 ¡percent ¡of ¡the ¡ Ame, ¡with ¡the ¡other ¡techniques ¡being ¡used ¡only ¡a ¡small ¡percent ¡of ¡the ¡Ame ¡ at ¡most ¡ experimentaAon ¡terminology ¡is ¡sloppy. ¡ clearly ¡, ¡ ¡more ¡work ¡needs ¡to ¡be ¡done ¡on ¡the ¡part ¡of ¡researchers ¡ ¡(even ¡the ¡ number ¡of ¡papers ¡with ¡no ¡experimental ¡validaAon ¡seems ¡to ¡be ¡dropping,) ¡
CONCLUSION ¡ ¡ ¡ ¡
They ¡want ¡to ¡enhance ¡researchers’ ¡ ability ¡to ¡report ¡on ¡soLware ¡ engineering ¡experimentaAon ¡so ¡that ¡ research ¡can ¡beEer ¡assist ¡industry ¡in ¡ selecAng ¡new ¡technology. ¡ ¡ ¡
GOAL ¡OF ¡THE ¡PAPER ¡ ¡
Does ¡a ¡paper ¡really ¡describe ¡the ¡effort ¡made ¡by ¡researchers ¡and ¡all ¡detailed ¡ steps ¡and ¡difficulAes ¡of ¡an ¡experiment ¡in ¡such ¡a ¡way ¡we ¡can ¡deduct ¡just ¡from ¡ these ¡documents ¡ ¡if ¡the ¡authors ¡use ¡a ¡validation ¡method ¡or ¡not. ¡What ¡do ¡you ¡ think ¡on ¡the ¡fact ¡that ¡there ¡is ¡not ¡raw ¡data ¡extracted ¡ ¡from ¡the ¡612 ¡papers. ¡ What ¡can ¡be ¡others ¡factors ¡(others ¡than ¡the ¡differences ¡of ¡ ¡the ¡publicaAon’s ¡ editor ¡the ¡program ¡commiEee) ¡which ¡can ¡affect ¡outcome ¡of ¡this ¡study. ¡ What ¡can ¡we ¡use ¡in ¡your ¡opinion ¡other ¡than ¡published ¡papers ¡to ¡understand ¡ how ¡research ¡in ¡software ¡engineering ¡is ¡validated. If ¡we ¡considered ¡the ¡point ¡that ¡ ¡some ¡technologies ¡were ¡validated ¡in ¡ ¡later ¡ publicaAons ¡, ¡and ¡they ¡are ¡considered ¡like ¡no ¡validated ¡in ¡the ¡evaluated ¡papers ¡, ¡ do ¡you ¡think ¡that ¡is ¡an ¡important ¡thing ¡to ¡considered. ¡ ¡ Did ¡you ¡already ¡experiment ¡one ¡of ¡these ¡12 ¡approaches ¡? ¡ ¡How ¡you ¡find ¡this ¡ approach ¡? ¡does ¡it ¡show ¡really ¡a ¡validaAon ¡of ¡new ¡technology ¡for ¡which ¡you ¡are ¡
Questions ¡ ¡ ¡