Arash ¡Termehchy#, ¡Ali ¡Vakilian*, ¡Yodsawalai ¡ Chodpathumwan*, ¡Marianne ¡Winsle>* ¡
¡ #Oregon ¡State ¡University ¡ ¡
Which Concepts Are Worth Extrac2ng? Arash Termehchy # , Ali - - PowerPoint PPT Presentation
Which Concepts Are Worth Extrac2ng? Arash Termehchy # , Ali Vakilian*, Yodsawalai Chodpathumwan*, Marianne Winsle>* # Oregon State University *University of
¡ #Oregon ¡State ¡University ¡ ¡
<article id=1> Michael Jordan is a former American professional basketball player ... </article> <article id=2> Michael Jordan is a full professor at the University
</article> <article id=3> The Michael Jordan’s sculpture is in the front of Union Center … </article> <article id=4> All six championship teams of Chicago Bulls were led by Michael Jordan and … </article>
Michael ¡Jordan ¡Statue ¡ Ranked ¡list ¡
Keyword ¡query ¡ ¡
article id=1 ✗ article id=4 ✗ article id=2 ✗ article id=3 ✓
¡
<ar2cle ¡id=1> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡former ¡American ¡ ¡ professional ¡basketball ¡player ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=3> ¡ ¡ ¡The ¡Michael ¡Jordan’s ¡sculpture ¡is ¡in ¡the ¡front ¡
</ar2cle> ¡ ¡ <ar2cle ¡id=4> ¡ ¡ ¡All ¡six ¡championship ¡teams ¡of ¡Chicago ¡Bulls ¡ were ¡led ¡by ¡Michael ¡Jordan ¡and ¡… ¡ </ar2cle> ¡
Athlete ¡ NaOonality ¡ ScienOst ¡ University ¡ Artwork ¡ Club ¡
Artwork(Michael ¡Jordan) ¡ ¡ article id=3 ✓ Ranked ¡list ¡ <ar2cle ¡id=1> ¡ ¡ Michael ¡Jordan ¡is ¡a ¡former ¡American ¡ ¡ professional ¡ ¡basketball ¡player ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=3> ¡ ¡ The ¡Michael ¡Jordan’s ¡sculpture ¡is ¡in ¡the ¡front ¡
</ar2cle> ¡ ¡ <ar2cle ¡id=4> ¡ ¡ All ¡six ¡championship ¡teams ¡of ¡Chicago ¡Bulls ¡ were ¡led ¡by ¡Michael ¡Jordan ¡and ¡… ¡ </ar2cle> ¡
Artwork ¡
¡
¡
relevant ¡features; ¡… ¡. ¡Harder ¡in ¡specific ¡domains ¡like ¡medicine. ¡ ¡
set ¡evolves. ¡
C∈S
Fixed ¡ ¡budget ¡ Cost ¡funcOon ¡ We ¡have ¡to ¡quanOfy ¡this: ¡ the ¡benefit ¡of ¡a ¡design ¡ Currently ¡guided ¡by ¡
8 ¡
<ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=3> ¡ ¡ ¡The ¡Michael ¡Jordan ¡statue ¡is ¡a ¡bronze ¡ sculpture ¡of ¡the ¡basketball ¡player ¡… ¡ </ar2cle> ¡ ¡
ScienOst ¡
article id=2 ✓ Scientist(Michael ¡Jordan) ¡ ¡
C∈S
The ¡porOon ¡of ¡queries ¡ whose ¡concepts ¡are ¡C ¡ ¡ The ¡accuracy ¡of ¡ extracOng ¡C ¡
9 ¡
<ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=3> ¡ ¡ ¡The ¡Michael ¡Jordan ¡statue ¡is ¡a ¡bronze ¡ sculpture ¡of ¡the ¡basketball ¡player ¡… ¡ </ar2cle> ¡ ¡
ScienOst ¡
article id=3 ✓
Artwork(Michael ¡Jordan) ¡ ¡
Whatever ¡ the ¡answer ¡ is, ¡it ¡is ¡not ¡ a ¡scienOst. ¡
10 ¡
E∉S
C∉S
The ¡porOon ¡of ¡enOOes ¡in ¡the ¡ collecOon ¡whose ¡concepts ¡ are ¡not ¡in ¡S. ¡ The ¡porOon ¡of ¡enOOes ¡in ¡ the ¡collecOon ¡that ¡belong ¡ to ¡C, ¡frequency ¡of ¡C ¡
The ¡porOon ¡of ¡ queries ¡whose ¡ concepts ¡are ¡C ¡ ¡
11 ¡
<ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=4> ¡ ¡ Michael ¡Jordan ¡is ¡a ¡computaOonal ¡ chemist ¡in ¡the ¡Center ¡for ¡System ¡ Biology ¡ </ar2cle> ¡
ScienOst ¡
article id=2 ✗ article id=4 ✓
Researcher(Michael ¡Jordan) ¡ ¡
12 ¡
C∉S
The ¡porOon ¡of ¡enOOes ¡in ¡ the ¡collecOon ¡that ¡belong ¡ to ¡C, ¡frequency ¡of ¡C ¡ The ¡porOon ¡of ¡ queries ¡whose ¡ concepts ¡are ¡C ¡ ¡
C∈S
C∉S
C∈S
C∉S
C∉S
C∈S
Approxima;on ¡ra;o ¡
No ¡constraints ¡regarding ¡overlap ¡ 1 ¡+ ¡ε ¡ Mutually ¡exclusive ¡ ¡concepts ¡ 2 ¡+ ¡ε ¡
Budget ¡(0-‑1) ¡ Oracle ¡ Benefit ¡MaximizaOon ¡
0.1 ¡ 0.190 ¡/ ¡0.442 ¡ 0.190 ¡/ ¡0.442 ¡ 0.2 ¡ 0.208 ¡/ ¡0.513 ¡ 0.208 ¡/ ¡0.513 ¡
precision@3 ¡and ¡MRR ¡(more ¡results ¡in ¡the ¡paper) ¡
precision@3 ¡and ¡MRR ¡(more ¡results ¡in ¡the ¡paper) ¡
precision@3 ¡and ¡MRR ¡(more ¡results ¡in ¡the ¡paper) ¡