So Solving geometry problems: co combining text - - PowerPoint PPT Presentation

so solving geometry problems co combining text and
SMART_READER_LITE
LIVE PREVIEW

So Solving geometry problems: co combining text - - PowerPoint PPT Presentation

So Solving geometry problems: co combining text and diagram in interpretatio ion Minjoon Seo 1 , Hannaneh Hajishirzi 1 , Ali Farhadi 1,2 , Oren Etzioni 2 ,


slide-1
SLIDE 1

So Solving ¡ ¡geometry ¡ ¡problems: ¡ ¡ co combining ¡ ¡text ¡ ¡and ¡ ¡diagram ¡ ¡ in interpretatio ion

Minjoon ¡ Seo1, ¡Hannaneh Hajishirzi1, ¡Ali ¡Farhadi1,2, ¡ Oren ¡Etzioni2, ¡Clint ¡Malcolm1

  • Sep. ¡20

EMNLP ¡2015 1 2

1

slide-2
SLIDE 2

Ge Geometry ¡ ¡Word ¡ ¡Problems

In the diagram at the right, circle O has a radius of 5, and CE =

  • 2. Diameter AC is

perpendicular to chord

  • BD. What is the length
  • f BD?

a) 2 b) 4 c) 6 d) 8 e) 10

E B D A O 5 2 C

2

slide-3
SLIDE 3

Wh Why ¡ ¡geometry ¡ ¡problems? ¡ ¡

  • Solving ¡geometry ¡word ¡problems ¡is ¡challenging ¡in ¡AI
  • Part ¡of ¡broader ¡scope ¡of ¡solving ¡math ¡word ¡problems ¡

(Kushman et ¡al., ¡2014; ¡Hosseini et ¡al., ¡2014; ¡Roy ¡et ¡al., ¡2015; ¡Dai ¡et ¡al., ¡2015; ¡Shi ¡ et ¡al., ¡2015)

  • Interesting ¡interplay ¡between ¡natural ¡language ¡and ¡vision
slide-4
SLIDE 4

Wh Why ¡ ¡geometry ¡ ¡problems? ¡ ¡

  • Solving ¡geometry ¡word ¡problems ¡is ¡challenging ¡in ¡AI
  • Part ¡of ¡broader ¡scope ¡of ¡solving ¡math ¡word ¡problems ¡

(Kushman et ¡al., ¡2014; ¡Hosseini et ¡al., ¡2014; ¡Roy ¡et ¡al., ¡2015; ¡Dai ¡et ¡al., ¡2015; ¡Shi ¡ et ¡al., ¡2015)

  • Interesting ¡interplay ¡between ¡natural ¡language ¡and ¡vision

In the diagram at the right, circle O has a radius of 5, and CE =

  • 2. Diameter AC is

perpendicular to chord

  • BD. What is the length
  • f BD?

a) 2 b) 4 c) 6 d) 8 e) 10

slide-5
SLIDE 5

Wh Why ¡ ¡geometry ¡ ¡problems? ¡ ¡

  • Solving ¡geometry ¡word ¡problems ¡is ¡challenging ¡in ¡AI
  • Part ¡of ¡broader ¡scope ¡of ¡solving ¡math ¡word ¡problems ¡

(Kushman et ¡al., ¡2014; ¡Hosseini et ¡al., ¡2014; ¡Roy ¡et ¡al., ¡2015; ¡Dai ¡et ¡al., ¡2015; ¡Shi ¡ et ¡al., ¡2015)

  • Interesting ¡interplay ¡between ¡natural ¡language ¡and ¡vision

5

E B D A O 5 2 C

slide-6
SLIDE 6

Wh Why ¡ ¡geometry ¡ ¡problems? ¡ ¡

  • Solving ¡geometry ¡word ¡problems ¡is ¡challenging ¡in ¡AI
  • Part ¡of ¡broader ¡scope ¡of ¡solving ¡math ¡word ¡problems ¡

(Kushman et ¡al., ¡2014; ¡Hosseini et ¡al., ¡2014; ¡Roy ¡et ¡al., ¡2015; ¡Dai ¡et ¡al., ¡2015; ¡Shi ¡ et ¡al., ¡2015)

  • Interesting ¡interplay ¡between ¡natural ¡language ¡and ¡vision
  • Closely ¡related ¡to ¡language ¡& ¡vision ¡and ¡grounded ¡language ¡

acquisition

  • Requires ¡semantic ¡understanding ¡of ¡each ¡modality ¡
  • Has ¡well-­‑defined ¡metric
  • Interesting ¡to ¡NLP: ¡unique ¡characteristics ¡of ¡the ¡geometry ¡

word ¡problems. ¡

slide-7
SLIDE 7

Challenge ¡#1 ¡

Interaction ¡between ¡Text ¡and ¡Diagram

  • Previous ¡work ¡in ¡semantic ¡parsing ¡and ¡relation ¡extraction ¡does ¡

not ¡consider ¡another ¡modality ¡(Zettlemoyer and ¡Collins, ¡2005; ¡Kate ¡and ¡

Mooney, ¡2007; ¡Poon ¡and ¡Domingos, ¡2009; ¡Kwiatkowski ¡et ¡al., ¡2013; ¡Flanigan et ¡al., ¡2014; ¡ Reddy ¡et ¡al., ¡2014; ¡Berant et ¡al., ¡2014; Cowie and ¡Lehnert, ¡1996; ¡Culotta and ¡Sorensen, ¡ 2004)

7

In ¡the ¡diagram ¡at ¡the ¡ right, ¡the ¡line is ¡tangent ¡ to ¡the ¡circle. A B O C

slide-8
SLIDE 8

Challenge ¡#2: Lexical ¡Ambiguity

8 8

A B O C Line ¡OC ¡bisects line ¡AB, ¡ and ¡line ¡OC ¡bisects angle ¡ AOB.

slide-9
SLIDE 9

Challenge ¡#3: Implication

9

Circle ¡O ¡has ¡a ¡radius ¡of ¡5.

E B D A O 5 2 C

Equals(RadiusOf(O), 5)

slide-10
SLIDE 10

Challenge ¡#4: Syntactic ¡Complication

10

A B C D

AB ¡and ¡CD ¡are ¡perpendicular. AB ¡and ¡CD ¡are ¡perpendicular ¡to ¡ EF.

A B C D E F

slide-11
SLIDE 11

11

B D E A C

In ¡triangle ¡ABC, ¡line ¡ DE ¡is ¡parallel ¡with ¡line ¡ AC, ¡DB ¡equals ¡4, ¡AD ¡is ¡ 8, ¡and ¡DE ¡is ¡5. ¡Find ¡ AC. (a) ¡9 ¡ ¡ ¡(b) ¡10 ¡ ¡(c) ¡12.5 ¡ ¡ ¡ (d) ¡15 ¡ ¡ ¡(e) ¡17

IsTriangle(ABC) ¡∧ Parallel(AC, ¡DE) ∧ Equals(LengthOf(DB), ¡4) ¡∧ Equals(LengthOf(AD), ¡8) ¡∧ Equals(LengthOf(DE), ¡5) ¡∧ Find(LengthOf(AC)) PointLiesOnLine(D, ¡AB) ¡∧ PointLiesOnLine(E, ¡BC)

(d) ¡15

Ge GeoS: ¡ : ¡Overview

slide-12
SLIDE 12

Ge GeoS: ¡ : ¡Overview

Diagram Text facts facts answer

(1) (2) (3)

(1) Diagram ¡understanding ¡(Seo ¡et ¡al., ¡2014) (2) Text ¡parsing ¡ (3) Solving

12

Help

slide-13
SLIDE 13

Di Diagram-­‑

  • ­‑ai

aided ¡ ¡text ¡ ¡par arsing

In ¡triangle ¡ABC, ¡line ¡DE ¡is ¡parallel ¡with ¡ line ¡AC, ¡DB ¡equals ¡4, ¡AD ¡is ¡8, ¡and ¡DE ¡is ¡5. ¡ Find ¡AC. (a) ¡9 ¡ ¡ ¡(b) ¡10 ¡ ¡(c) ¡12.5 ¡ ¡ ¡(d) ¡15 ¡ ¡ ¡(e) ¡17

B D E A C

IsTriangle(ABC) ∧ Parallel(AC, ¡DE) ∧ Equals(LengthOf(DB), ¡4) ¡ ¡∧ ¡ Equals(LengthOf(AD), ¡8) ¡∧ Equals(LengthOf(DE), ¡5) ¡∧ ¡ Find(LengthOf(AC))

13

Text Input Logical form

Difficult ¡to ¡directly ¡map ¡text ¡to ¡a ¡long ¡logical ¡form!

slide-14
SLIDE 14

Di Diagram-­‑

  • ­‑ai

aided ¡ ¡text ¡ ¡par arsing

In ¡triangle ¡ABC, ¡line ¡DE ¡is ¡parallel ¡with ¡ line ¡AC, ¡DB ¡equals ¡4, ¡AD ¡is ¡8, ¡and ¡DE ¡is ¡5. ¡ Find ¡AC. (a) ¡9 ¡ ¡ ¡(b) ¡10 ¡ ¡(c) ¡12.5 ¡ ¡ ¡(d) ¡15 ¡ ¡ ¡(e) ¡17

B D E A C

IsTriangle(ABC) Parallel(AC, ¡DE) Parallel(AC, ¡DB) Equals(LengthOf(DB), ¡4) Equals(LengthOf(AD), ¡8) Equals(LengthOf(DE), ¡5) Equals(4, ¡LengthOf(AD)) …

Over-­‑generated ¡literals

0.96 0.91 0.74 0.97 0.94 0.94 0.31 …

Text ¡scores

1.00 0.99 0.02 n/a n/a n/a n/a …

Diagram ¡scores Selected ¡subset

14

Text Input Logical form Our ¡ method

IsTriangle(ABC) ∧ Parallel(AC, ¡DE) ∧ Equals(LengthOf(DB), ¡4) ¡ ¡∧ ¡ Equals(LengthOf(AD), ¡8) ¡∧ Equals(LengthOf(DE), ¡5) ¡∧ ¡ Find(LengthOf(AC))

slide-15
SLIDE 15

St Step ¡ p ¡1. ¡ ¡Literal ¡ ¡over-­‑

  • ­‑ge

generation

In ¡triangle ¡ABC, ¡line ¡DE ¡is ¡parallel ¡with ¡ line ¡AC, ¡DB ¡equals ¡4, ¡AD ¡is ¡8, ¡and ¡DE ¡is ¡5. ¡ Find ¡AC. (a) ¡9 ¡ ¡ ¡(b) ¡10 ¡ ¡(c) ¡12.5 ¡ ¡ ¡(d) ¡15 ¡ ¡ ¡(e) ¡17

B D E A C

IsTriangle(ABC) Parallel(AC, ¡DE) Parallel(AC, ¡DB) Equals(LengthOf(DB), ¡4) Equals(LengthOf(AD), ¡8) Equals(LengthOf(DE), ¡5) Equals(4, ¡LengthOf(AD)) …

Over-­‑generated ¡literals

15

slide-16
SLIDE 16

St Step ¡ ¡1. ¡ ¡Generating ¡ ¡literals

“Lines ¡AB ¡and ¡CD ¡are ¡perpendicular ¡to ¡EF”

IsLine(AB) IsLine(CD) IsLine(EF) Perpendicular(AB, CD) Perpendicular(CD, EF) Perpendicular(AB, EF)

16

slide-17
SLIDE 17

St Step ¡ ¡1. ¡ . ¡Generating ¡ ¡lit liter erals ls

“Lines ¡AB ¡and ¡CD ¡are ¡perpendicular ¡to ¡EF”

IsLine(AB) IsLine(CD) IsLine(EF) Perpendicular(AB, CD) Perpendicular(CD, EF) Perpendicular(AB, EF)

Red ¡literals ¡ are ¡false.

17

slide-18
SLIDE 18

Co Concepts

Lines ¡ ¡ ¡AB ¡ ¡ ¡and ¡ ¡ ¡CD ¡ ¡ ¡are ¡ ¡ ¡perpendicular ¡ ¡ ¡to ¡ ¡ ¡EF AB Perpendicular CD EF IsLine

18

slide-19
SLIDE 19

Le Lexicon

  • We ¡built ¡lexicon ¡from ¡training ¡data ¡and ¡textbooks
  • Lexicon ¡maps ¡geometry-­‑related ¡words ¡(or ¡phrases) ¡to ¡concepts
  • Some ¡concepts ¡are ¡obtained ¡via ¡simple ¡regular ¡expressions
  • Single ¡word ¡can ¡map ¡to ¡two ¡or ¡more ¡concepts

Word ¡or phrase Concept “Perpendicular” Perpendicular “Lies ¡on” PointLiesOnLine, PointLiesOnCircle “CD” line, arc “ABC” triangle, angle

19

slide-20
SLIDE 20

Re Relations

Lines ¡ ¡ ¡AB ¡ ¡ ¡and ¡ ¡ ¡CD ¡ ¡ ¡are ¡ ¡ ¡perpendicular ¡ ¡ ¡to ¡ ¡ ¡EF AB Perpendicular CD EF IsLine

20

slide-21
SLIDE 21

Re Relations

Lines ¡ ¡ ¡AB ¡ ¡ ¡and ¡ ¡ ¡CD ¡ ¡ ¡are ¡ ¡ ¡perpendicular ¡ ¡ ¡to ¡ ¡ ¡EF AB Perpendicular CD EF IsLine

Unary ¡relation

IsLine(EF)

21

slide-22
SLIDE 22

Re Relations

Lines ¡ ¡ ¡AB ¡ ¡ ¡and ¡ ¡ ¡CD ¡ ¡ ¡are ¡ ¡ ¡perpendicular ¡ ¡ ¡to ¡ ¡ ¡EF AB Perpendicular CD EF IsLine

Binary ¡relation

Perpendicular(AB, CD)

22

slide-23
SLIDE 23

St Step ¡ p ¡2. ¡ ¡Text ¡ ¡scores ¡ ¡of ¡ ¡literals

In ¡triangle ¡ABC, ¡line ¡DE ¡is ¡parallel ¡with ¡ line ¡AC, ¡DB ¡equals ¡4, ¡AD ¡is ¡8, ¡and ¡DE ¡is ¡5. ¡ Find ¡AC. (a) ¡9 ¡ ¡ ¡(b) ¡10 ¡ ¡(c) ¡12.5 ¡ ¡ ¡(d) ¡15 ¡ ¡ ¡(e) ¡17

B D E A C

IsTriangle(ABC) Parallel(AC, ¡DE) Parallel(AC, ¡DB) Equals(LengthOf(DB), ¡4) Equals(LengthOf(AD), ¡8) Equals(LengthOf(DE), ¡5) Equals(4, ¡LengthOf(AD)) …

Over-­‑generated ¡literals

0.96 0.91 0.74 0.97 0.94 0.94 0.31 …

Text ¡scores

23

slide-24
SLIDE 24

Re Relation ¡ ¡score

Lines ¡ ¡ ¡AB ¡ ¡ ¡and ¡ ¡ ¡CD ¡ ¡ ¡are ¡ ¡ ¡perpendicular ¡ ¡ ¡to ¡ ¡ ¡EF AB Perpendicular CD EF IsLine

0.78

24

slide-25
SLIDE 25

Re Relation ¡ ¡classification

  • Supervision: ¡annotated ¡logical ¡forms
  • Training ¡data: ¡all ¡possible ¡relations ¡from ¡

training ¡questions

  • Relations ¡found ¡in ¡annotations: ¡positive
  • All ¡others: ¡negative
  • Logistic ¡regression ¡with ¡L2 ¡regularization
  • Features:
  • Stanford ¡dependency ¡parse
  • Part ¡of ¡speech ¡tags
  • Type ¡of ¡concept ¡(line, ¡circle, ¡triangle, ¡predicate, ¡

etc.)

25

IsLine->AB IsLine->CD IsLine->EF Perpendicular->AB, CD Perpendicular->CD, EF Perpendicular->AB, EF

slide-26
SLIDE 26

Te Text ¡ ¡scores ¡ ¡of ¡ ¡literals

Equals RadiusOf O 5

0.94 0.87

𝒝$%&$ 𝑚 = ) log𝑄.(𝑧1 = 1|𝑠

1, 𝑢)

𝑚 𝜄 𝑧1 𝑠

1

𝑢 Literal Label ¡for ¡edge Edge ¡(relation) Question ¡text Logistic ¡regression ¡ parameters ¡to ¡be ¡ learned

“Circle ¡O ¡has ¡radius ¡of ¡5”

26

slide-27
SLIDE 27

St Step ¡ p ¡3. ¡ ¡Diagram ¡ ¡scores ¡ ¡of ¡ ¡literals

In ¡triangle ¡ABC, ¡line ¡DE ¡is ¡parallel ¡with ¡ line ¡AC, ¡DB ¡equals ¡4, ¡AD ¡is ¡8, ¡and ¡DE ¡is ¡5. ¡ Find ¡AC. (a) ¡9 ¡ ¡ ¡(b) ¡10 ¡ ¡(c) ¡12.5 ¡ ¡ ¡(d) ¡15 ¡ ¡ ¡(e) ¡17

B D E A C

IsTriangle(ABC) Parallel(AC, ¡DE) Parallel(AC, ¡DB) Equals(LengthOf(DB), ¡4) Equals(LengthOf(AD), ¡8) Equals(LengthOf(DE), ¡5) Equals(4, ¡LengthOf(AD)) …

Over-­‑generated ¡literals

0.96 0.91 0.74 0.97 0.94 0.94 0.31 …

Text ¡scores

1.00 0.99 0.02 n/a n/a n/a n/a …

Diagram ¡scores

27

slide-28
SLIDE 28

St Step ¡ ¡3. ¡ ¡Diagram ¡ ¡scores ¡ ¡of ¡ ¡literals

B D E A C TEXT DIAGRAM Parallel(AC, DB) 0.74 0.02

28

“AC ¡and ¡DB ¡are ¡parallel ¡with ¡DE ¡and ¡AD, ¡respectively.”

slide-29
SLIDE 29

St Step ¡ ¡3. ¡ ¡Diagram ¡ ¡scores ¡ ¡of ¡ ¡literals

B D E A C

29

TEXT DIAGRAM Parallel(AC, DB) 0.74 0.02 Parallel(AC, DE) 0.78 0.99 “AC ¡and ¡DB ¡are ¡parallel ¡with ¡DE ¡and ¡AD, ¡respectively.”

slide-30
SLIDE 30

St Step ¡ ¡3. ¡ ¡Diagram ¡ ¡scores ¡ ¡of ¡ ¡literals

B D E A C

Diagram ¡understanding ¡in ¡geometry ¡questions ¡(Seo ¡et ¡al., ¡2014)

30

TEXT DIAGRAM Parallel(AC, DB) 0.74 0.02 Parallel(AC, DE) 0.78 0.99 “AC ¡and ¡DB ¡are ¡parallel ¡with ¡DE ¡and ¡AD, ¡respectively.”

slide-31
SLIDE 31

St Step ¡ p ¡4. ¡ ¡Subs Subset ¡ ¡selection

In ¡triangle ¡ABC, ¡line ¡DE ¡is ¡parallel ¡with ¡ line ¡AC, ¡DB ¡equals ¡4, ¡AD ¡is ¡8, ¡and ¡DE ¡is ¡5. ¡ Find ¡AC. (a) ¡9 ¡ ¡ ¡(b) ¡10 ¡ ¡(c) ¡12.5 ¡ ¡ ¡(d) ¡15 ¡ ¡ ¡(e) ¡17

B D E A C

IsTriangle(ABC) Parallel(AC, ¡DE) Parallel(AC, ¡DB) Equals(LengthOf(DB), ¡4) Equals(LengthOf(AD), ¡8) Equals(LengthOf(DE), ¡5) Equals(4, ¡LengthOf(AD)) …

Over-­‑generated ¡literals

0.96 0.91 0.74 0.97 0.94 0.94 0.31 …

Text ¡scores

1.00 0.99 0.02 n/a n/a n/a n/a …

Diagram ¡scores Selected ¡subset

31

IsTriangle(ABC) ∧ Parallel(AC, ¡DE) ∧ Equals(LengthOf(DB), ¡4) ¡ ¡∧ ¡ Equals(LengthOf(AD), ¡8) ¡∧ Equals(LengthOf(DE), ¡5) ¡∧ ¡ Find(LengthOf(AC))

slide-32
SLIDE 32

St Step ¡ ¡4. ¡ ¡Su Subset ¡ ¡selection

IsTriangle(ABC) Parallel(AC, ¡DE) Parallel(AC, ¡DB) Equals(LengthOf(DB), ¡4) Equals(LengthOf(AD), ¡8) Equals(LengthOf(DE), ¡5) Equals(4, ¡LengthOf(AD)) Equals(LengthOf(AC), ¡4) Parallel(DE, ¡DB) Equals(LengthOf(DB, ¡8) Find(LengthOf(AC)) Find(LengthOf(DE)) Find(LengthOf(DB)) … IsTriangle(ABC) Parallel(AC, ¡DE) Equals(LengthOf(DB), ¡4) Equals(LengthOf(AD), ¡8) Equals(LengthOf(DE), ¡5) Find(LengthOf(AC))

𝑀 𝑀∗ 𝑀∗ = argmax

?@⊂?

ℱ(𝑀C) ℱ 𝑀C = 𝜇𝒝 𝑀C, 𝑢, 𝑒 + ℋ(𝑀C, 𝑢)

Affinity (diagram+text) Coherence (covers ¡all ¡facts, no ¡conflict)

32

  • High ¡text ¡and ¡diagram ¡scores
  • Cover ¡all ¡facts ¡in ¡text
  • Literals ¡don’t ¡conflict
slide-33
SLIDE 33

0p 0ptimization ¡ ¡algorithm

𝑀∗ = argmax

?@⊂?

𝜇𝒝 𝑀C, 𝑢, 𝑒 + ℋ(𝑀C, 𝑢) ¡

affinity coherence

Bad ¡news: ¡combinatorial ¡optimization ¡is ¡NP-­‑hard Good ¡news: ¡objective ¡function ¡is ¡submodular Greedy ¡algorithm efficiently ¡finds ¡a ¡solution ¡with ¡bounded ¡ distance ¡to ¡the ¡optimum. Starting ¡from ¡empty ¡set, ¡greedily ¡add ¡the ¡next ¡best ¡literal ¡to ¡ the ¡set. 𝑚H = argmax

IJ∈?∖?@ ℱ 𝑀C ∪ 𝑚H

− ℱ(𝑀C)

33

slide-34
SLIDE 34

So Solving

Diagram Text facts facts answer

(1) (2) (3) Help

34

slide-35
SLIDE 35

Nu Numerical ¡ ¡solver

Literal Equation Equals(LengthOf(AB),d) (Ax-­‑Bx)2+(Ay-­‑By)2-­‑d2 = ¡0 Parallel(AB, ¡CD) (Ax-­‑Bx)(Cy-­‑Dy)-­‑(Ay-­‑By)(Cx-­‑Dx) ¡= ¡0 PointLiesOnLine(B, ¡AC) (Ax-­‑Bx)(By-­‑Cy)-­‑(Ay-­‑By)(Bx-­‑Cx) ¡= ¡0 Perpendicular(AB,CD) (Ax-­‑Bx)(Cx-­‑Dx)+(Ay-­‑By)(Cy-­‑Dy) ¡ = ¡0

  • Find ¡the ¡solution ¡to ¡the ¡equation ¡system
  • Use ¡off-­‑the-­‑shelf ¡numerical ¡minimizers ¡(Wales ¡and ¡Doye, ¡

1997; ¡Kraft, ¡1988)

  • Numerical ¡solver ¡can ¡choose ¡not to ¡answer ¡question

35

  • Translate ¡literals ¡to ¡numeric ¡equations
slide-36
SLIDE 36

Da Dataset

  • Training ¡questions ¡(67 ¡questions, ¡121 ¡sentences)
  • Seo ¡et ¡al., ¡2014
  • High ¡school ¡geometry ¡questions
  • Test ¡questions (119 ¡questions, ¡215 ¡sentences)
  • We ¡collected ¡them
  • SAT ¡(US ¡college ¡entrance ¡exam) ¡geometry ¡questions
  • We ¡manually ¡annotated ¡the ¡text ¡parse ¡of ¡all ¡questions
  • Dataset ¡is ¡publicly ¡available ¡at:

geometry.allenai.org

36

slide-37
SLIDE 37

Ex Experiment ¡ ¡1: ¡ ¡answering ¡ ¡questions ¡ ¡

10 20 30 40 50 60

GeoS ¡(our ¡ system)

SAT ¡Score ¡(%) *** ¡0.25 ¡penalty ¡for ¡incorrect ¡answer

37

slide-38
SLIDE 38

Ex Experiment ¡ ¡1: ¡ ¡answering ¡ ¡questions ¡ ¡

10 20 30 40 50 60

Text ¡only Diagram ¡

  • nly

GeoS

SAT ¡Score ¡(%) *** ¡0.25 ¡penalty ¡for ¡incorrect ¡answer

38

slide-39
SLIDE 39

Ex Experiment ¡ ¡1: ¡ ¡answering ¡ ¡questions ¡ ¡

10 20 30 40 50 60

Text ¡only Diagram ¡

  • nly

Rule-­‑based GeoS

SAT ¡Score ¡(%) *** ¡0.25 ¡penalty ¡for ¡incorrect ¡answer

39

slide-40
SLIDE 40

Ex Experiment ¡ ¡1: ¡ ¡answering ¡ ¡questions ¡ ¡

10 20 30 40 50 60

Text ¡only Diagram ¡

  • nly

Rule-­‑based GeoS Student ¡ average

SAT ¡Score ¡(%) *** ¡0.25 ¡penalty ¡for ¡incorrect ¡answer

40

slide-41
SLIDE 41

Ex Experiment ¡ ¡2: ¡ ¡Improving ¡ ¡dependency ¡ ¡parsing

E C B D A

“BD ¡is ¡perpendicular ¡to ¡AC ¡at ¡point ¡E.” Obtain ¡top-­‑k ¡dependency ¡ parses, ¡and ¡re-­‑rank ¡them ¡ based ¡on ¡GeoS result

41

10 20 30 40 50 60 70 80 90

Stanford ¡dep ¡parse ¡

  • nly

With ¡GeoS

slide-42
SLIDE 42

De Demo ¡ ¡(ge geometry.allenai.org/d /demo)

42

slide-43
SLIDE 43

Oracle ¡Studies

10 20 30 40 50 60 70 80 90 100

GeoS GeoS Improvement Incorrect

43

slide-44
SLIDE 44

Oracle ¡Studies

10 20 30 40 50 60 70 80 90 100

GeoS Oracle ¡TP+GeoS ¡DP GeoS Improvement Incorrect

44

slide-45
SLIDE 45

Oracle ¡Studies

10 20 30 40 50 60 70 80 90 100

GeoS Oracle ¡TP+GeoS ¡DP GeoS ¡TP+Oracle ¡DP GeoS Improvement Incorrect

45

slide-46
SLIDE 46

Oracle ¡Studies

10 20 30 40 50 60 70 80 90 100

GeoS Oracle ¡TP+GeoS ¡DP GeoS ¡TP+Oracle ¡DP Oracle ¡TP+Oracle ¡DP GeoS Improvement Incorrect

46

slide-47
SLIDE 47

Fa Failure ¡ ¡Modes

In#the#figure#at#the#le-,#the#smaller#circles# each#have#radius#3.#They#are#tangent#to#the# larger#circle#at#points#A#and#C,#and#are#tangent# to#each#other#at#point#B,#which#is#the#center#of# the#larger#circle.#What#is#the#perimeter#of#the# shaded#region?# In#the#figure#at#the#le-,#a#shaded# polygon#which#has#equal#angles#is# parCally#covered#with#a#sheet#of# blank#paper.#If#x+y=80,#how#many# sides#does#the#polygon#have?##

(a)#6*pi###(b)#8*pi###(c)#9*pi###(d)#8*pi###(e)#15*pi# (a)#10###(b)#9####(c)#8####(d)#7###(e)#6#

(a)# (b)#

Fails&to&resolve&“they”&to&“each&other”& Requires&complex&reasoning:&& Cannot&understand&that&the&polygon& is&“hidden”&

47

slide-48
SLIDE 48

Su Summary

  • First ¡end-­‑to-­‑end ¡system ¡for ¡solving ¡high ¡school ¡geometry ¡

problems

  • Achieved ¡55% ¡on ¡official ¡and ¡practice ¡SAT ¡geometry ¡

questions

  • Text ¡parsing ¡in ¡the ¡presence ¡of ¡diagram

48

slide-49
SLIDE 49

Fu Future ¡ ¡wor

  • rk
  • Expand ¡text ¡parsing ¡algorithm ¡to ¡other ¡grounded ¡

language ¡acquisition ¡domains

  • Improvements ¡in ¡solving ¡geometry ¡problems:
  • Increase ¡data ¡size
  • Weakly-­‑supervised ¡learning
  • More ¡interaction ¡between ¡text ¡and ¡diagram
  • More ¡transparent ¡solver
  • Numerical ¡solver ¡is ¡black ¡box
  • Logical ¡solver: ¡gives ¡more ¡feedback ¡from ¡the ¡solution

49

slide-50
SLIDE 50

Th Thank ¡ ¡you!

For ¡more ¡information, ¡please ¡visit: geometry.allenai.org

50

slide-51
SLIDE 51

Tw Two-­‑

  • ­‑st

stage ¡ ¡parsi sing

Natural ¡Language Formal ¡Language Intermediate ¡ Representation

Easy Hard!

51

(Kwiatkowski ¡et ¡al., ¡2013)

“Circle ¡O ¡has ¡radius ¡of ¡5”

Equals(RadiusOf(O), 5) Bridged(RadiusOf(O), 5)

slide-52
SLIDE 52

Two-­‑stage ¡parsing: ¡examples

Natural ¡language “Circle ¡O ¡has ¡a ¡radius ¡of ¡5.” Intermediate Bridged(RadiusOf(O), 5) Formal ¡language Equals(RadiusOf(O), 5) Natural ¡language “AM ¡and ¡CM ¡bisect ¡BAC ¡and ¡BCA.” Intermediate Bisects(AM, BAC) ∧ CC(AM, CM) ∧ CC(BAC, BCA) Formal ¡language Bisects(AM,BAC) ∧ Bisects(CM, BCA)

52

slide-53
SLIDE 53

Af Affinity ¡ ¡score ¡ ¡function

  • Each ¡literal ¡has ¡text ¡score ¡and ¡diagram ¡score
  • Affinity ¡score ¡is ¡the ¡sum ¡of ¡text ¡and ¡diagram ¡scores ¡of ¡literals

𝒝(𝑀C, 𝑢, 𝑒) = ) 𝒝$%&$ 𝑚H

C,𝑢 + 𝒝O1PQRPS 𝑚H C,𝑒 IJ

@∈?@

53

slide-54
SLIDE 54

Co Coherence ¡ ¡score ¡ ¡function

“DE ¡is ¡parallel ¡with ¡AB, ¡and ¡EF ¡equals ¡5.” Parallel(DE, EF) Equals(AB, 5) Equals(EF, 5) Parallel(DE, AB) Parallel(DE, EF) Equals(AB, 5) Parallel(DE, AB) Equals(EF, 5) High ¡coverage, ¡high ¡redundancy Low ¡coverage, ¡low ¡redundancy High ¡coverage, ¡low ¡redundancy High ¡coverage, ¡low ¡redundancy

ℋ 𝑀C, 𝑢 = 𝑂 𝑀C − 𝑆(𝑀C)

coverage redundancy

54

slide-55
SLIDE 55

Nu Numerical ¡ ¡solver

AB ¡is ¡perpendicular ¡to ¡BC, ¡AB ¡= ¡3 ¡and ¡BC ¡= ¡4. What ¡is ¡the ¡length ¡of ¡AB? a) ¡3 ¡ ¡ ¡b) ¡4 ¡ ¡ ¡c) ¡5 ¡ ¡ ¡d) ¡6 ¡ ¡ ¡e) ¡7 Perpendicular(AB, BC) Equals(LengthOf(AB), 3) Equals(LengthOf(BC, 4) Equals(LengthOf(AC), What) A B C

  • 2 ¡variables ¡for ¡each ¡point ¡(x, ¡y)
  • 1 ¡variable ¡for ¡unknown ¡(What)
  • One ¡equation ¡for ¡each ¡literal
  • Simultaneously ¡satisfy ¡4 ¡equations ¡with ¡7 variables ¡(3 ¡

variables ¡are ¡free ¡due ¡to ¡translation ¡and ¡rotation)

55

slide-56
SLIDE 56

Ex Experiment ¡ ¡2: ¡ ¡semantic ¡ ¡parsing ¡ ¡

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

F1 ¡Score

Text ¡only Rule-­‑based GeoS

56