들어가며 본 글은 노마드 코더의 Dart 시작하기를 보고 정리한 글입니다. 노마드 코더에서 Flutter를 시작하기 앞서 Dart를 공부하는게 중요하다고 강조하기에 Dart를 공부하고 본 포스트에 정리하고자 합니다. Flutter가 Dart를 채택한 이유 1. Dart는 JIT 컴파일과 AOT 컴파일이 둘 다 있다. (개발시 빠른 피드백 + 배포시 빠른 실행속도) 2. Dart와 Flutter 모두 구글에서 만들었다. (구글에서 Dart 자체를 Flutter를 위해 최적화 가능) Dart는 Dart Web, Dart Native 두 개의 컴파일러를 가지고 있다. Dart Web은 Dart 코드를 Javascript로 변환해주는 컴파일러이다. Dart Native는 Dart 코드를 여러 CPU 아키텍쳐에 ..
들어가며 본 글은 위키독스의 딥러닝을 위한 자연어처리의 텍스트 전처리 챕터와 파이썬 머신러닝 완벽 가이드의 8챕터의 내용을 정리한 글입니다. 텍스트 분석 머신러닝 알고리즘은 숫자형 피처 기반 데이터만 입력받을 수 있다. 그러나 텍스트는 비정형 데이터이기 때문에 텍스트에서 적절한 피처를 추출하는 것은 중요하다. 텍스트 분석의 수행 프로세스는 크게 다음과 같이 나타낼 수 있다. 텍스트 전처리(텍스트 정규화 작업) 피처 벡터화/추출 ML 모델 수립 및 학습/예측/평가 텍스트 전처리 텍스트 자체를 바로 피처로 만들 수 없다. 따라서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 텍스트를 처리한다. 정제(Cleaning) 정제(Cleaning..
들어가며 본 글은 Hierarchical Attention Prototypical Networks for Few-Shot Text Classification을 리뷰한 글입니다. 기존 Prototypical Network의 문제점 데이터에서 prototype의 분별력과 표현력을 약화시키는 다양한 노이즈의 부정적 영향을 고려하지 않았다. 기존 Attention 기반 Prototypical Network의 문제점 기존에서 PN에 attention을 이용한 접근도 있었지만 이러한 방법들은 의미 정보를 이용하지 않거나 노이즈의 영향을 정교하게 고려하지 않았다. 논문에서의 키 아이디어 세 가지 레벨에서 attention 메커니즘을 사용하여 few-shot text classification을 한다. feature ..
보호되어 있는 글입니다.
들어가며 본 글은 논문 Few-shot Text Classification with Distributional Signatures을 리뷰한 글입니다. 텍스트 도메인에서 메타러닝을 적용하기 어려운 이유 컴퓨터 비전에서는 에지와 같은 저수준의 패턴이나 그에 부합하는 표현들이 task끼리 서로 공유될 수 있지만 언어 데이터에선 대부분의 task들이 어휘(lexical) 수준에서 이루어진다. 단어 어느 task에선 유용하지만 어느 task에선 유용하지 않는다. ※ 여기서 lexicon은 단어의 발음, 의미, 다른 단어와의 관계 등 단어에 관한 정보가 저장되어 있는 곳을 의미하는 것 같다. 참고자료 논문에서의 키 아이디어 단어를 바로 고려하지 않고 단어 분포(i.e. tf-idf weighting)에 있는 특성인..
들어가며 Few-shot learning에 대표적인 matching network, prototypical, Relation network은 모두 이미지 도메인에서 작성된 논문이다. 추후 산학협력 프로젝트로 진행하는 추천시스템 프로젝트에선 텍스트 데이터를 사용하므로 이에 적용하기 위해서 텍스트 분야에 적용된 17년과 23년 사이에 작성된 Metric 기반 논문 혹은 코드를 찾고자 한다. Relation Network의 Embedding Network에 BERT를 적용한 접근 해당 접근은 이 블로그에 정리돼 있으며 코드는 작성자의 깃허브 레포에서 확인할 수 있다. 해당 접근에선 워드 임베딩으로 당시 SOTA 모델인 BERT를 사용하였다. 해당 블로그에선 BERT를 few-shot setting과 datas..