본문 바로가기

728x90

학부/AI 관련 공부

(8)

Attention score (Attention Mechanism) 딥러닝 과목을 공부하던 중, 예전부터 정말 많이 들어왔고 나도 꽤 잘 안다고 생각했던 attention에서 너무 많이 헤매고 있다가 드디어 어느정도 이해를 할 수 있어서 그 감을 잊지 않고자 티스토리를 급하게 켰다. HTML 삽입 미리보기할 수 없는 소스 NLP를 생각하면서 attention에 접근해보자. Attention mechanism이란, 실제 영어 단어의 뜻처럼 '문맥의 특정 부분에 집중'하는 메커니즘을 의미한다. A : 내일 몇시에 만날거야? B : 음... 나 밥도 먹고 청소도 하면 한 .. 오후 3시쯤 만나는 게 좋을 것 같은데? 이 예시에서 A의 질문에 필요한 대답은 '오후 3시'일 것이다. 안타깝게도, 컴퓨터는 이 문장을 다 보고 해석하려고 하기 때문에 쓸데없는 정보가 추가되기도 하고 ..

객체 지향 프로그래밍(Object-oriented programming) Python에 대한 공부를 하던 중에, 객체 지향 프로그래밍(Object-oriented programming)이라는 단어가 많이 나오길래 어떤 의미인지 궁금했다. 공부를 한 내용들을 간단하게 정리해두면 좋을 것 같아서 이렇게 기록을 남긴다. HTML 삽입 미리보기할 수 없는 소스 컴퓨터 프로그래밍의 패러다임 중 하나로, 컴퓨터 프로그램을 명령어의 목록으로 보는 시각이 아니라 여러 개의 독립된 단위인 “객체”들의 모임으로 파악하는 것을 의미한다. 프로그램 구현에 필요한 객체를 파악하고, 각각의 객체들의 역할이 무엇인지를 정의하여 객체들간의 상호작용을 통해 프로그램을 만드는 것이 바로 “객체 지향 프로그래밍”이다. ex) C++, C#, Java, Python, etc. 일반적으로 데이터는 변수에 넣어서 ..

Natural Language Processing, Normalization 이란? (3) Normalization (NLP preprocessing) 이번 시간엔 텍스트 전처리의 3단계 중에 하나인 Normalization에 대해서 살펴볼 예정이다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. (ex. US = USA) 대소문자를 통합할 때도 US와 us가 다른 것처럼, 무조건 대문자를 소문자로 만들어주는 것도 유의해야 한다. ⇒ 따라서 더 많은 변수를 이용해 소문자 변환을 언제 사용할지 결정하는 머신 러닝 시퀀스 모델을 사용할 수 있다. (항상 효율적인건 아님) HTML 삽입 미리보기할 수 없는 소스 ‘의미를 가진 가장 작은 단위’인 형태소로 형태학적 parsing을 진행한 후, 표제어 추출기를 사용해 표제어 추출을 진행하는 것이 가장..

크롤링을 위한 HTML / CSS 간단 소개 (NLP) HTML 삽입 미리보기할 수 없는 소스 HTML은 태그로 감싸진 내용들의 모음으로, 다음과 같은 구조를 갖는다. Seongeun p : 맨 앞의 p는 태그 이름을 의미한다. 태그는 종류가 정말 다양하고 의미도 다르기 때문에 태그 이름들을 잘 활용하는 것이 중요하다. 여기서 사용된 p는 하나의 문장을 입력할 때 사용한다. span은 줄 형태의 구역을 설정하는 것에 사용된다. a는 링크를 추가할 때 사용된다. class : 속성명을 의미한다. HTML은 수많은 태그로 이루어져 있기 때문에, 각 태그에 속성을 부여하여 구분 가능하도록 만든다. ID = "~" 형태로도 사용된다. 이는 하나의 웹페이지에 하나만 쓸 수 있는 고유한 이름이다. Class는 비슷한 형태를 가진 요소들을 여러 번 사용할 수 있는 이름으..

Natural Language Processing, Cleaning 이란? (2) https://tjddms9376.tistory.com/6 Natural Language Processing, Tokenization이란? (1) 새로운 데이터사이언스 학회에 들어가면서 NaturalLanguage Processing (NLP)를 본격적으로 공부를 하기 시작했다. 지난 학기, 자연어처리 수업을 들으면서 해당 분야에 관심을 가진 이래로 처음 제대로 tjddms9376.tistory.com 앞선 시간에 Text pre-processing에서 Tokenization에 대해 알아보았다. 오늘은 텍스트 전처리의 3가지 단계 중, tokenization을 제외한 다른 단계인 Cleaning (정제)에 대해 알아보자. Cleaning (정제) 란? 정제(cleaning) : 갖고 있는 corpus로부..

Natural Language Processing, Tokenization이란? (1) 새로운 데이터사이언스 학회에 들어가면서 NaturalLanguage Processing (NLP)를 본격적으로 공부를 하기 시작했다. 지난 학기, 자연어처리 수업을 들으면서 해당 분야에 관심을 가진 이래로 처음 제대로 도전해보는 내용이라 많이 미흡하고 틀린 부분들도 있겠지만, 적극적인 피드백을 통해 발전해 나가보도록 하겠다. 사용 교재 CS224n 강의자료 / 밑바닥부터 시작하는 딥러닝2 / 딥러닝을 이용한 자연어처리 입문 / DSBA youtube 채널 공부 방식 복습 과제 : 복습 과제 내용 학습 + 자율 과제 (기본적인 가이드라인에서 variation을 주면서 변화 확인하는 정도) 수업 : 해당 주차 수업 + 복습 과제 발표 예습 과제 : 클론 코딩 과제 + 실습 과제 수행 Text Preproce..

Perceptron이란 ? Perceptron이란? 인공 신경망의 가장 간단한 형태를 의미한다. 딥러닝의 역사는 perceptron을 시작으로 발전해왔는데, GATE를 통해 조금 더 자세히 알아보자. AND GATE는 x1, x2가 모두 1이면 1이고 나머지는 0으로 연산하는 GATE를 의미한다. Perceptron은 입력값을 받아들이고, 여기에 가중치를 곱한 후, 편향을 더하여 계산을 한다. 위의 그림에서 $$f(-0.8 + 0.5x_1 + 0.5x_2)$$ 에서 0.5가 각각의 가중치이며 -0.8이 편향이다. Hard thresholding은 0보다 작으면 0, 1보다 크면 1 을 의미한다.이와 같은 방법으로 GATE에 대한 perceptron의 결과를 확인해보면, 다음과 같은 결과가 나온다. 선을 기준으로 0과 1을 구분할 ..

ML 스터디 간단하게 정리하기 [12강: 지도학습 & 비지도학습] 머신러닝 : 인공지능을 구현하는 하나의 방법이며, 데이터를 이용해 데이터 특성과 패턴을 학습하여 미지의 데이터에 대한 결과를 예측하는 기법 학습 방법에 따라 "지도 학습" 과 "비지도 학습" 로 나뉜다. 1. 지도 학습 => 입력 값에 해당하는 출력 값을 포함한 데이터를 가지고 학습을 하며, 회귀(Regression) & 분류 (Classification)에 사용된다. ex) 공부 시간과 시험 점수가 나와있는 데이터로 학습 >> input : 공부시간 >> 출력값 - Regression (회귀) : Training Data의 연속적인 숫자 값을 예측하고 사용하는 것, ex) input : 공부시간 >> 시험 점수 예측 - Classification (분류) : 주어진 ..

이전 1 다음

728x90

티스토리툴바