일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 분포 가설
- Long Short Term Memory
- Python
- docker
- 차원 감소
- py4e
- Multi-Layer Perceptron
- GoogLeNet
- convolution
- 시소러스
- 상호 정보량
- nn.Module
- 선형대수
- 1x1 Convolution
- object detaction
- Charlse Severance
- skip-gram
- Gated Recurrent Unit
- pytorch
- 동시발생 행렬
- mlops
- excel
- Linear algebra
- CBOW
- dl
- deep learning
- 파이썬
- f1-score
- pythonForEverybody
- 벡터 간 유사도
- Today
- Total
목록NLP (4)
Tech & TIL
Transformer 다음에 나온 논문으로, NLP 분야에서 꼭 알아야 하는 BERT 논문을 리뷰해보자. Table of contents 개요 이전 연구와의 차이점 메인 결론 BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 1. 개요 BERT - 트랜스포머 기반 양방향 인코더 표현 주요 특징 - Pre-training - Unlabeled Data - Bidirectional - MLM(Masked Language Modeling) - NSP(Next Sentence Prediction) 효과적인 분야 - QA (Question Answering) - Language Inference 2. 이전 연구와의 차..
"밑바닥부터 시작하는 딥러닝 2"을 기반으로 정리한 내용입니다. Word2Vec은 앞서 살펴보았던 통계 기반 기법의 단점을 보완하고자 나온 추론 기반 기법이다. 통계 기반 기법에서는 주변 단어의 빈도를 기초로 단어를 표현했었다. 구체적으로는 동시발생 행렬을 만들고 PPMI 행렬로 변환하고 SVD로 차원을 감소시킴으로써, 거대한 sparse vector를 작은 dense vector로 변환할 수 있었다. 통계 기반 기법은 말뭉치 전체의 통계(동시발생 행렬과 PPMI 등)를 이용해 단 1회의 처리(SVD 등) 만에 단어의 분산 표현을 얻는다. 한편, 추론 기반 기법에서는, 예컨대 신경망을 이용하는 경우는 미니 배치로 학습하는 것이 일반적이다. 그림 1을 보면 통계 기반 기법은 전체 학습 데이터를 모두 사용해..
"밑바닥부터 시작하는 딥러닝 2"를 기반으로 정리한 내용입니다. 자연어를 컴퓨터에게 이해시키려면 "단어의 의미"를 이해시켜야 한다. 지금부터 컴퓨터에게 단어의 의미에 대해 학습시킬 수 있는 3가지 기법에 대해 알아보자. 시소러스를 활용한 기법 통계 기반 기법 추론 기반 기법(Word2Vec) 시소러스 시소러스(thesaurus)는 쉽게 말해 유의어 사전이다. 사람이 직접 단어의 의미를 정의하는 방식을 생각해볼 수 있다. 아래 그림을 보면 이해가 쉬울 것이다. 검색 엔진을 예로 들어, "automobile"과 "car"가 유의어임을 알고 있으면 "car"의 검색 결과에 "automobile"의 검색 결과도 포함시켜주는 것과 같은 기법이다. 그렇다면 시소러스의 문제점은 무엇이 있을까? 시소러스는 수많은 단어..
한국어, 영어, 중국어 등 우리가 평소에 쓰는? 말을 자연어(natural language)라고 한다. 개발자들이 일반적으로 사용하는 C, Java, Python과 같은 언어는 기계적이고 고정되어 있는 프로그래밍 언어인 반면, 자연어란 한국어나 영어와 같은 "부드러운" 언어를 말한다. 부드러운 언어인 자연어를 처리해서 컴퓨터에게 이해시키기 위한 기술을 자연어 처리(Natural Language Processing)라 한다. 하지만 기계가 사람이 하는 말을 이해한다는 것이 가능할까? 가능하다. 이미 자연어처리는 우리의 실생활에 밀접하게 연관되어 있다. 검색 엔진, 기계 번역, 질의응답 시스템, 감정분석 등 다양한 분야에서 자연어 처리가 사용되고 있다. 앞으로 NLP에서 사용하는 기본적인 기법에 대해 정리할..