CausaLM 프로젝트 (3)
이전 포스팅을 통해 어떤 모델을 사용하는 지까지 알아보았다. 이제 어떤 task를 진행하며, 어떤 experiment를 진행하는 지에 대해 알아보자.
5. Tasks and Experiments
전체 experiment의 요약 table을 의미한다.
- Concept은 Adjective (형용사) / Topics / Gender / Race로 설정
- Task : 감성 분석 (Sentiment)와 POMS (Profile of Mood states)
- Adjectives를 local representatives 로써의 concept으로 설정
- Topic을 global representative concept으로 설정
- Race와 Gender은 treated concept와 label 사이의 correlation으로 ‘Balanced / Gentle / Aggresive’ 3개의 data 버전으로 실험
full-dataset에서 서로의 correlation을 제시한 table이다.
이와 같은 실험 설정을 통해 우리는 4가지의 연구 질문을 살펴본다.
- 우리가 제시한 TReATE estimator를 사용하여 causal effect의 실제 추정치인 AT Egt에 비슷하게 근사시킬 수 있는가 ? ⇒ 핵심적인 causal inference 문제로, AT Egt와 비교하며 테스트
- Counterfactual representation model인 BERT-CF가 treated concept들을 정확하게 ‘forget’ 할 수 있는가 ? (아예 confounder로써는 사용되지 못하도록)
- BERT-CF는 control concept을 기억하는가 ? ⇒ 2,3번째 질문은 본 연구의 stage 2 개입으로 만들어진 BERT-CF의 결과를 분석
- BERT-CF는 downstream classifier의 잠재적인 bias를 완화하는 데에 도움이 되는가 ? ⇒ 위와 같은 모델들이 실제 도움이 되는가?
5.1 The Causal Effect of Adjectives on Sentiment Classification
Sentiment Analysis에서 Adjective의 효과를 측정하는 실험을 진행한다.
Treated Concept : Adjective
형용사는 일반적으로 보통 문장에서 제거되어도 문법성과 일관성에 영향을 주지 않을 수 있으므로, 최근 발전한 품사 태깅기를 이용해 수동 태깅을 하지 않고도 정확하게 자동으로 태깅할 수 있다. ⇒ 즉, Adjective를 찾는 과정을 자동화한다.
Causal graph는 다음과 같다.
실제 figure 1의 정치인의 개념이 논의되지 않으므로, 다른 품사들을 (형용사 제외 모든 품사들)을 control concept으로 사용한다.
이제, Adjective의 비율과 label간의 correlation을 다양하게 하는 여러 데이터셋을 만든다.
- Balanced : 긍정과 부정적인 리뷰를 균등하게 만들어놓은 데이터
- Gentle : 부정적인 리뷰의 반을 삭제하여 긍정적인 데이터셋
- Aggresive : 긍정적인 리뷰의 반을 삭제하여 부정적인 데이터셋
다음으로 Treated concept과 Control concept을 모델링하는 작업을 거친다. Treated concept에 IMA (is masked Adjective? 여기선 Masked langauge model에서 사용하는 방법과 동일함) 를 이용하여 해당 단어가 형용사인지 여부를 예측한다.
Control concept에 대한 작업은 형용사가 아닌 단어를 해당 품사 태그에 따라 분류하는 시퀀스 tagger를 훈련한다. 이는 형용사가 없어도 구문 개념을 보존하기 위해서이다.
이후, 마지막으로 BERT-CF를 생성하기 위해 IMA objective를 표준 방법으로 하여 adversarial training을 진행한다.
5.2 The Causal Effect of Topics on Sentiment Classification
Topic
- high-level 의미의 문서들을 의미하며, NLP에서는 다양한 언어의 이해 목적을 위해서 사용된다. (우리가 아는 topic의 의미라기보다, NLP에서 사용되는 용어로 생각하자)
- Topic은 corpus의 다양한 리뷰에 걸친 정보를 encoding하는 global concept이다. topic은 수동 태깅 없이 unsupervised learning방법으로 훈련될 수 있다.
- 위에서 살펴본 adjective와는 qualitatively 다르며, adjective는 concrete(구체적)이며 local 하지만, topic은 abstract하며 global하다.
- Sentiment classification에서 ‘topic’은 논의중인 topic이 긍정인지 부정적인지에 대한 가능성에 영향을 미칠 것으로 가정한다.
⇒ ex. 특정 영화 장르는 다른 장르보다 일반적으로 부정적인 리뷰를 받거나 특정 상품은 다른 대안 상품에 비해 더 좋은 평을 받는 것.
Topic 개념은 Adjective와 다르게 counterfactual example에 대한 text를 직접적으로 조절할 수 없다. 왜냐면, topic은 해당 주제를 간단히 삭제함으로써 counterfactual example을 만들 수 있는 것이 아니기 때문이다.
⇒ 따라서, 우리는 review dataset에서의 domain variation과 특정 domain에 대응되는 correspondence를 활용하여 TReATE의 성능을 테스트 해볼 수 있다.
- Topic에 대한 또 다른 문제는, confounder에 대한 문제인데, LDA에서는 text를 topic의 혼합으로 모델링을 하며 각 topic은 vocab에 대한 확률 분포로 나타내진다.
- 만약에 하나의 topic 확률이 감소하면, 다른 topic의 확률은 증가해야 하므로 potential confounder에 대한 영향을 다음과 같이 우회한다.
Controlling the Concept-Label Correlation
- Balanced / Gentle / Aggressive 방법으로 3가지 버전의 데이터셋을 준비한다.
- Balanced : Books, DVD, Electronics, Kitchen Appliances, Movies → 모든 도메인들을 포함
- Gentle : Balanced 데이터에서 median probability보다 낮은 probability를 가지고 있는 topic의 부정적인 리뷰들을 절반 삭제한 버전
- Aggressive : Gentle과 동일한 방식으로 긍정적인 리뷰들을 절반 삭제한 버전
- 맨 위 그림은 topic이 text를 생성하는 data generation process를 나타내고 있으며, potential confounder가 C1,C2에 모두 영향을 미치는 것을 의미한다.
- 중간 그림은 treated concept없이 data generation process를 제어하여 text를 생성하는 시나리오를 나타낸다.
- 마지막 그림이 우리가 제시한 방법을 의미하며, text representation을 조정하는 것을 의미한다.
5.3 The Causal Effect of Gender and Racial Bias
- Adjective와 topics은 local & global linguistic concept이지만, 그들에 대한 counterfactual example을 만드는 것에는 한계가 있다.
- 특히 topics에서 counterfactual example을 만드는 것은 불가능하다.
- 따라서 보다 정확한 causal effect를 측정하기 위해, EEEC 데이터셋을 사용하여 Gender와 Race에 대한 작업을 고려한다.
- gender가 treated concept이라면, race가 potentially confounding concept이 된다.
- 이 데이터셋으로는 직접적으로 concept을 컨트롤할 수 있으며 true counterfactual example들을 만들 수 있기 때문에, true causal effect를 측정할 수 있다.
- 또한, 만약에 이 데이터셋에서 effect가 발견된다면?
- 이는 undesirable effect일 것이므로 대상 개념과 관련하여 편향되지 않은 text representation을 도울 수 있을 것이다.
- 해당 데이터셋은 3가지의 버전으로 생성한다.
- Balanced : 각 label과 concept간의 correlation을 최소화한다. (사람의 이름을 무작위로 선택)
- Gentle : 90%의 joy label은 여성, 50%의 분노, 슬픔, 공포 label 예시는 남성 이름을 가지도록 하여 positive correlation을 만든다.
- Aggressive : 반대로 설정해서 correlation을 더 강화한다.
- BERT-CF 모델을 위해 TC 및 CC는 다음과 같이 정의한다.
- TC로 Gender를 선택하면, model은 각 예시에서 언급된 성별을 예측하는 binary classification 수행
- CC 작업은 TC로 gender가 주어진 경우, 예시에서 언급된 인종을 예측하는 binary classification 수행
5.4 Comparing Causal Estimates to the Ground Truth
일반적으로는 counterfactual example에 직접적으로 접근할 수 없지만,일부의 경우에는 이런 counterfactuals을 인위적으로 생성할 수 있다.
- Adjective의 경우, 비슷한 과정을 따르는 counterfactual example들을 생성할 수 있다.
- 여기서 C0=1을 가지는 예시이며, C0=0은 0을 가진 예시를 의미한다.
- C0=1이 ‘여성의 그의 아들을 향해 걷고 있다.’ 라면, C0=0은 ‘남성이 그의 아들을 향해 걷고 있다.’ 가 된다.
[Correlation-based Baselines]
Counterfactual example을 고려하지 않는 baseline과 우리의 방법을 비교해보고자 한다. 여기서 baseline은 counterfactuals를 고려하지 않으면서 단순히 test example 사이의 예측에 대한 차이를 계산한다.
- 첫번째 baseline은 CONEXP이며, 이는 모델 예측에서 concept의 effect를 측정하기 위한 대안으로 제시되어 있다.
- 두번째 baseline은 TPR-GAP이며, text에 concept이 있는 경우의 정확한 예측의 비율과 concept이 없는 경우의 정확한 예측의 비율 차이를 계산한다.
- BERT 기반의 classifier의 prediction을 비교하도록 현재 experiment들이 설계되 어있다. 따라서, BERT-O 기반 모델의 예측을 counterfactual과 비교하고 전체 test-set에 대한 평균을 계산해서 사용한다.
Result
우리의 결과를 검토, 분석하여 4가지의 연구 질문에 답변하고자 한다.
- 제시된 Approach가 ATE를 정확하게 추정할 수 있는가?
- BERT-CF가 treated concept을 ‘forget’ 할 수 있는가?
- BERT-CF가 control concept을 ‘remember’하는가?
- BERT-CF를 사용하여 debiasing이 가능한가?
6.1 Estimating TReATE (The Causal Effect)
TReATE의 추정치가 ATEgt와 비슷하게 나타나며 인과 관계 효과를 성공적으로 추정했음을 확인했다.
bias가 존재하고 classifier에 영향을 미치더라도 TReATE는 안정적으로 작동하며 CONEXP 기준선은 실제 효과를 정확하게 근사하지는 못했다. Topics에 대한 실험에서는 ground truth가 없지만, 효과를 성공적으로 추정할 수 있는 결과를 확인했으며 domain 간의 유사성이 effect에 영향을 미친다는 pattern도 관찰되었다.
- Adjective에 대한 Causal effect의 결과
- Gender와 Race에 대해 POMS classification에 대한 결과
- TPR-GAP의 결과 ( 3가지 데이터 버전인 Balanced, Gentle, Aggressive에 대해)
- Treated concept이 Book인 경우와 Movies인 경우에 대한 sentiment classification의 결과
6.2 Analyzing the Counterfactual Model
stage 2에서의 intervention이 모델에 미치는 effect에 대한 결과를 확인해보았다.
- Movies가 Treated concept일 때, sentiment classification의 결과를 의미한다.
- treated concept에 대한 prediction accuracy를 측정한 결과이다. BERT-CF는 treated concept에 대한 정보 손실을 나타내며, 처리된 예측 정확도가 저하되었다.
- 이 말은, treated concept을 ‘forget’ 하는 데에 어느정도 효과가 있었다는 의미이다.
- control concept에 대한 prediction accuracy다. BERT-CF의 모델이 다른 모델과 비슷한 성능을 보여주는 것으로 보아, control concept을 ‘remember’하고 있음을 의미한다.
- Aggressive setting으로 학습 되며 Balanced test-set으로 test를 했을 때, BERT-CF는 가장 좋은 성능을 보인다.
- BERT-CF가 분포 변화에 덜 영향을 받아서 일반화 능력이 더 좋은 것으로 보인다.
- Debiasing에 대한 성능이 보이는 것으로 확인됨.
6.3 Analyzing the Stage 2 Multi-Task Training Scheme
TC와 CC task를 추가했을 때의 효과를 분석하기 위한 MLM task
아래는 Stage 2의 intervention에 의해 영향을 받은 Language model에 대한 결과이다.
- Gender
- BERT-CF : emplys both MLM, TC tasks
- addition of TC task introduces an immediate disturbance to BERT encoder → apparent effect without destabilizing all losses which also converge
- Adjective
- BERT-CF no control -without CC task (1)
- addition of CC task visible effect on TC tasck but not on MLM task (1)
- CC task act as an ‘opposing’ force to the adversarial task (2)
7. Discussion and Conclusion
이 논문이 기여한 바를 5가지로 설명할 수 있다.
- Introducing a causal approach for evaluating a variety of hypotheses regarding the effect of concept on a DNN model : 특정 개념의 효과를 평가하기 위한 causal approach를 소개
- proposing method for the generation of counterfactual representation : counterfactual example을 생성하는 것은 어렵기 때문에 언어 표현에 개입하는 방식을 제시
- 3개의 variant를 가진 4개의 dataset을 소개
- BERT-CF와 같은 counterfactual language representation model을 평가하는 tool을 제공
- Counterfactual language representation approach가 model debiasing에 효과가 있다는 것을 증명
이러한 접근법들은 model의 decision을 이끌어내는 concept들에 대한 가설들을 만들어낸다. 그리고 DNN에서 이런 concept들의 영향을 측정하기 위해서는, ‘Causal Graph’가 필요하다.
Causal Graph : text를 생성하는 concept들 간의 관계를 표현한다.
모델을 해석하고자 할 때는, 데이터의 generation process와 world에 대해 가정을 해야한다. confounder을 control하지 않으면, 우리는 treated concept과 관련된 변수들의 effect를 측정할 수 있다.
따라서, control concept을 정하는 것은 실제 effect와 confounder effect를 추정하는 데에 굉장히 중요하다.
제시한 모델의 중요한 가정 중 하나는 concept을 on & off 할 수 있다는 것이다. 따라서, concept의 값을 변경하는 것을 허용하지 않는다. 이 말은, TReATE estimator가 특정 concept을 encoding 하는 경우와 그렇지 않은 경우의 classification class output 차이를 측정한다는 이야기지, concept을 남성→ 여성으로 바꾸는 경우가 아니라는 의미이다.
하지만, 본 연구에서는 ‘adjective (형용사)’ 가 없는 counterfactual example들을 생성했으나 특정 개인의 gender나 race를 변경 혹은 on&off 하여 counterfactuals를 생성하는 것은 불가능하다. 이것이 해당 framework의 한계이며, 추후 연구할 예정이다.
위의 논의는 DNN interpretation을 위해 world knowledge와 assumption이 중요함을 의미하고 있다.
그 다음은, Global and local concept 간의 구별이다. 언어는 topic / style과 같은 global concept을 나타내는데, 이러한 concept들은 모델링하기 어렵다. 따라서 우리는 global 특징을 가지면서도 counterfactual representation model에 통합되는 해결책을 제시했다. 하지만 이 또한 완전히 해결된 문제가 아니므로 추후 논의가 필요하다.
마지막으로, causal explanation method의 quality를 validating (평가)하는 것은 상당히 어려운 과제이다. 우리는 합성 데이터를 사용했었지만, 이는 실제 data와는 다른 경우이며 본 실험에서는 adjective에 대한 counterfactual example을 수동적인 개입없이 만들어 냈으나, ‘topic’과 같은 concept에서는 수동적인 개입이 없으면 counterfactual example을 새롭게 생성하는 것은 거의 불가능하다.
따라서, 이러한 데이터셋을 조금 더 만들기 위해 노력할 예정이다.
논문 리뷰 후기 및 나의 생각
이렇게 논문을 자세하게 다룬 이유는, 이번 프로젝트의 최종 목표 중 하나가 바로 논문의 결과를 reproducing하는 것이었기 때문이다. 논문 하나를 집중적으로 읽어보면서 다양한 방법론들에 대해 알게 되었고, 어떤 식으로 실험이 진행되었는 지 확인할 수 있었다.
논문의 길이가 꽤 길어서 3개의 포스팅으로 나누어 논문 리뷰를 진행했는데, 이제부터는 실제 experiment를 진행한 부분에 대해서 다룰 예정이다. 프로젝트에 대한 내용과 깃허브 코드도 함께 첨부하겠다.
혹시나 논문을 읽어보았거나, 리뷰를 보는 도중에 오류 혹은 궁금한 점이 있다면 편하게 피드백해주시면 감사하겠습니다.