들어가며 본 글은 위키독스의 딥러닝을 위한 자연어처리의 텍스트 전처리 챕터와 파이썬 머신러닝 완벽 가이드의 8챕터의 내용을 정리한 글입니다. 텍스트 분석 머신러닝 알고리즘은 숫자형 피처 기반 데이터만 입력받을 수 있다. 그러나 텍스트는 비정형 데이터이기 때문에 텍스트에서 적절한 피처를 추출하는 것은 중요하다. 텍스트 분석의 수행 프로세스는 크게 다음과 같이 나타낼 수 있다. 텍스트 전처리(텍스트 정규화 작업) 피처 벡터화/추출 ML 모델 수립 및 학습/예측/평가 텍스트 전처리 텍스트 자체를 바로 피처로 만들 수 없다. 따라서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 텍스트를 처리한다. 정제(Cleaning) 정제(Cleaning..
들어가며 본 글은 Hierarchical Attention Prototypical Networks for Few-Shot Text Classification을 리뷰한 글입니다. 기존 Prototypical Network의 문제점 데이터에서 prototype의 분별력과 표현력을 약화시키는 다양한 노이즈의 부정적 영향을 고려하지 않았다. 기존 Attention 기반 Prototypical Network의 문제점 기존에서 PN에 attention을 이용한 접근도 있었지만 이러한 방법들은 의미 정보를 이용하지 않거나 노이즈의 영향을 정교하게 고려하지 않았다. 논문에서의 키 아이디어 세 가지 레벨에서 attention 메커니즘을 사용하여 few-shot text classification을 한다. feature ..
보호되어 있는 글입니다.
들어가며 Few-shot learning에 대표적인 matching network, prototypical, Relation network은 모두 이미지 도메인에서 작성된 논문이다. 추후 산학협력 프로젝트로 진행하는 추천시스템 프로젝트에선 텍스트 데이터를 사용하므로 이에 적용하기 위해서 텍스트 분야에 적용된 17년과 23년 사이에 작성된 Metric 기반 논문 혹은 코드를 찾고자 한다. Relation Network의 Embedding Network에 BERT를 적용한 접근 해당 접근은 이 블로그에 정리돼 있으며 코드는 작성자의 깃허브 레포에서 확인할 수 있다. 해당 접근에선 워드 임베딩으로 당시 SOTA 모델인 BERT를 사용하였다. 해당 블로그에선 BERT를 few-shot setting과 datas..
들어가며 본 글은 Modern Recommendation Systems with Neural Networks을 번역 및 재구성 한 글입니다. 추천 시스템 추천 시스템은 여러 제품에 대한 사용자의 선호도를 예측하는 모델이다. 가장 일반적인 방법은 제품 피처 (Content-Based), 유저 유사도 (Collaborative Filtering), 개인 정보 (Knowledge-Based)를 활용하는 것이다. 신경망의 인기가 높아지며 이 요소를 모두 통합하는 하이브리드 추천 시스템에 대한 실험이 이루어지고 있다. Cold Start 넷플릭스와 같은 서비스에 유저가 처음 가입하면 활동이 기록된게 없기 때문에 유저의 이전 상호작용 없이 추천해 주어야 한다. 이렇게 유저나 제품이 새로 들어올 때 직면하는 문제를 ..
들어가며 본 글은 논문 Few-shot learning for short text classification을 리뷰한 글입니다. 기존 short text classification의 문제 few-shot learning 접근법은 비전 도메인에선 좋은 성취를 얻었지만 자연어 처리 / 분류, 특히 짧은 텍스트 분류에서는 상대적으로 아니다. 트위터와 같은 짧은 텍스트와 문장에선 제한된 문장 길이, 축약어, 오타, 잘못된 문법을 사용하는 자유분방한 문장 구성과 같은 특징이 있다. 보통 언어는 고차원 공간에 의미 공간(semantic space)이 있고 이 의미 특징(semantic feature)과 워드 임베딩은 많은 NLP 과업에 유익하다고 여겨지고 더 많은 라벨링으로 분류기의 성능을 개선할 수 있을 것 같지..