AestheticDoc 개념 소개

머신러닝 기반 문서검색·분류 솔루션 AestheticDoc

에스테틱독은 머신러닝 기술을 기반으로 문서 검색·분석·분류 서비스를 한번에 제공하는 국내 유일의 솔루션입니다. 기존 문서 검색 솔루션과 달리 지속적인 추가 및 관리가 필요한 ‘사전’없이 서비스를 제공합니다. TextCNN, BERT 등 최신 알고리즘 도입해 정확도 높은 결과 도출이 가능하며 새로운 알고리즘을 손쉽게 적용할 수 있습니다.



  • TextCNN: 딥러닝 기반의 자연어이해 기술로 Word2Vec으 기반으로 문서를 2차원 이미지 데이터 형태로 생성하는 알고리즘.
  • ERT: Pre-Trained 모델 중 하나로 문어체 중심의 학습을 통해 약 15세 정도의 언어지식을 보유. 현재 전세계적으로 가장 트렌디한 텍스트 분석 알고리즘.단, 문어체를 기반으로 하므로 구어체에 대한 별도 학습이 필요함.
  • 당사는 이미 구어체 학습이 완료된 BERT를 활용하여 금융권 프로젝트를 수행, 그 성능을 입증했습니다.

AestheticDoc 구성도

에스테틱독은 단어나 문서를 임베딩하여 내재된 공간상에서 벡터 값을 생성하는 머신러닝 기반 문서 분류·검색 솔루션입니다. 따라서 사전이 필수가 아니므로 유지, 관리에 드는 리소스 절감은 물론, 알고리즘을 그대로 적용해 활용하므로 손쉬운 학습과 최신 알고리즘의 유연한 적용이 가능합니다.


AestheticDoc 실행 플로우

에스테틱독은 기존의 복잡한 서비스를 한번에 간단히! 종속적인 사전 없이도 문서 검색·분석·분류가 가능한 머신러닝 기반 솔루션입니다.


AestheticDoc만의 특장점- Doc’s DETOX

에스테틱독은 기존 솔루션이 가진 사전관리, 확장성, 솔루션 파편화가 가진 한계를 시원하게 해결해 드립니다.


Doc’s DETOX-AestheticDoc

기존 솔루션 vs AestheticDoc

활용 알고리즘 및 라이브러리

소프트웨어 및 라이브러리
1 Python 3.5.3 Python엔진
2 KoNLPy 0.5.1 Python 기반의 한글NLP 엔진
Open Korea Text 사전 사용
3 Gensim 0.13.4 기본 Doc2Vec 엔진
Topic 모델링 엔진
4 Scikit-learn 0.19.1 Python의 Machine Learning Library
Doc2Vec을 통해 나온 벡터를 분류
5 Plotly 3.4.2 Python시각화 라이브러리
Interactive 시각화가 가능
6 Dash 0.28.1 웹기반 Python Interface
Dash Table 제공
7 Flask 1.0.2 Python Web Framework
Dash와 연동
8 Pandas 0.23.4 Python Data analysis toolkit
DataFrame 형태의 데이터 가공
9 Numpy 1.15.1 Python 연산의 기초가 되는 라이브러리
Array 형태의 데이터 가공
알고리즘
1 Doc2Vec(Document to Vector) 비정형 데이터인 텍스트를 단어 및 문서를 벡터로 정형화해줌
2 t-SNE(Stochastic Neighbor Embedding) 다차원의 벡터를 2차원으로 축소해주는 알고리즘
데이터 시각화를 위해 이용
3 k-means clustering 임베딩된 문서들을 군집화하는데 사용
4 hierachical clustering 사업간의 계층적 구조를 보기위해 사용
5 LDA(Latent Dirichlet Allocation) 토픽모델링 알고리즘
군집들의 토픽을 확인하는데 활용
6 RF(Random Forest) 벡터로 정형화된 문서 데이터를 분류해주는 Classifier
7 DL(Deep Learning)
8 GBM(Gradien Boosting Machine)
9 GLM(Generalized Linear Model)
10 SVM(Support Vector Machine)