본문 바로가기

SKT AI 커리큘럼

1주차(1) T-Brain 소개 - 임수현 박사(T-Brain의 에반젤리스트)

# 에반제리스트(evangelist)란?

요새 테크 회사들이 많이 두고 있는 포지션으로 AI 나 데이터와 같은 기술적으로 어려운 부분들을 비전문가뿐 아니라 전문가들에게도 알기 쉽게 자료 전달, 설명, 강의 등을 하는 역할이다.

# T-Brain 이란?

한 분야의 전문성을 가지고 연구, 논문 , 특허를 주로 하는 선행 연구 조직이다.

크게 Research Scientist, Research Engineer, Software Engineer 아 세가지 role로 구분된다.

Research Scientist - 주로 박사 학위를 마친 전문가들로, 국제 AI 학회에서 논문 제출, 과제 수행 주제 선정, 논문 특허 연구 등 연구 중심의 일을 수행하는 role

Research Engineer - 연구된 것을 기술 확보를 위한 다양한 실험 및 각종 엔지니어 업무를 수행하는 role

Software Engineer - 연구나 기술 확보를 한 것들을 상용화하기 위해 사용자들을 위한 UX, UI 등을 개발하는 role

여기에진행하는 과제를 관리하시는 Project Manager 와 연구, 개발하는 것들을 대외적으로 소개하는 Evangelist 를 포함한 35명으로 구성되어 있다.

 

1. AI 선행 연구

선행 연구 조직인 T-Brain에서 가장 중요한 업무로 다양한 AI 문제를 발굴하고 해결하면서 국제 학회에 논문을 제출하고 사내외로 특허를 출원한다. 또한 서울대를 비롯한 다양한 학교와 산학 협력을 지원하고 있다.

관련 분야 > Machine Learning / Computer Vision / Natural Language Processing

2. AI 소프트웨어 및 인프라 구축

T-Brain에서 연구를 기반으로 한 기술로 사용화 tool을 만드는 작업을 하고 있는데 그게 Meta Learner tool 이다. 그 Meta Learner 시스템을 구축하고 있다. 또한 Deep Learning, Machine Learing을 돌리기 위해 중요한 GPU 인프라 구축을 클러스터로 뭉쳐 함께 관리하기 위한 GPU 클러스터 인프라 구축도 하고 있다.

관련 분야 > Meta Learing( Auto Machine Learing ) / T-Brain에서 구축하고 있는 Meta Learner 시스템 안 기술인 Hyperparameter Optization & Neural Architecture Search / 사용자들이 쉽게 사용할 수 있는 시스템 인터페이스 개발 / GPU 인프라 구축

3. AI 기술 상용화

다양한 분야에서 AI 기술을 연구에서 끝내지 않고 상용화할 수 있도록 노력하고 있다. SK telecom뿐 아니라 각종 계열사와 관련 있는 그룹에게도 Meta Learner를 응용할 수 있도록 다양한 부서와 협업을 하고 있다.

음원 분리 / 악보 기보 , 부품 공정 눌림 / 찍힘 검출 , Edge Device를 사용한 AI 기술 응용 , Multimodal 로봇 딥러닝 기술 탑재 / 드론 영상 분석 등의 기술들을 상용화하기 위한 작업을 하고 있다.

 

# SK 텔레콤에서 T-Brain의 역할

SK 텔레콤은 국내 최대 통신사로 통신사 이미지가 커서 통신 업무만 한다고 생각할 수 있지만 요즘에는 AI를 이용한 IOT 나 media home plaform 사업을 많이 구축하고 있다.

그 중 AIX Center가 있는데 이 AIC는 AI를 통해서 SK 텔레콤 안에 있는 다양한 ICT 기술이 빠르게 고객들에게 제공될 수 있도록 연구, 개발하는 Center이다.

T-Brain은 그 안에서 선행 연구 조직으로써 조금 더 AI의 원천기술, 신기술을 개발, 확보, 연구 실험을 하는 조직이다.

T-Brain은 Meta Learner Cell, Vision AI Project, Media AI Project, T-Brain X 이 4개의 조직으로 나뉜다.

1) Meta Learner Cell - Meta Learner Tool을 개발하고 있는 팀

2) Vision AI Project - Computer Vision 쪽에 초점을 맞춘 프로젝트를 관리, 담당하는 팀

3) Media AI Project - 상용화 관련해서 진행하고 있는 팀

(최근엔 Vision AI Project와  Media AI Project 둘이 합쳐져 Meta Learner 응용 Cell로 업무분단이 변경되었다. )

4) T-Brain X - 당장 사용하지는 않지만 앞으로의 연구에 필요한 중장기적인 연구를 수행하는 팀으로 강화학습, 자연어처리(NLP) 등을 연구한다.

 

# Meta AI

AI가 AI를 구현하는 시스템이다. 앞서 언급한 Meta Learner tool의 지향점이다. 비전문가들도 데이터를 넣어 이런 결과를 내는 AI를 만들어달라고만 하면 거기에 맞는 모델을 추천해주는 것을 목표로 개발을 하고 있다.

Visual Question Answering(시각적 질의응답) - 그림이 있고 그림에 대해서 자연언어로 인간이 What color are the pants of the guy skateboarding?같은 질문을 하면, 갈색이야!하고 대답하는 기술을 Meta AI로 모델을 경량화를 시킬 수 있는 지 실험했다.  Video Object Segmentation은 성능을 높이기 위해 Meta AI를 적용해보았고, Music Source Separation(음원분리)의 경우, Meta AI를 사용했을 때, 전문가가 직접 음원을 분리한 것보다 더 좋은 quality가 더 빠른 시간내에 나왔다.

Meta AI 응용 중 가장 많이 하는 것이 Music AI인데 music이 input으로 들어가면 Source Separation을 통해서 가창 부분과 악기 부분으로 나눈다. 가창(voice) 부분은 또 음성 변조(Vocal Tone translation)나 음성 합성(Vocal Tone Synthesize)을 통해서 다른 voice' 를 output으로 내고, 악기(instrument) 부분은 악보를 자동으로 따는 기술과(Automatic Transcription) 그 과정에서 학습한 내용으로 AI 직접 작곡까지 하는 것을 목표로 연구 개발을 진행 중이다.

 

# Conversational AI

대화형 엔진을 구성해서 다양한 곳에 접목하는 것을 목표로 하고 있다. 언어를 알아듣기 위해 Natural Language undeerstanding 도 필요하고 대화 전략 수립 및 대화 진행 과정 이해 등을 위한 Dialogue Management, 그런 대화를 다 알아듣고 전략을 세웠다면 그것을 어떻게 수행할 지에 따라 Task Agent, Chit-chat Agent, Info Agent 등 각각의 Agent도 필요하다. 특히 대화에서는 기본적인 정보가 주어졌을 때 정보를 검색하는 방법도 유용하게 사용될 수 있기 때문에 Knowledge Base한 Information Extraction, User Preference 등을 같이 연구하고 있다. 이런 과정이 유기적으로 잘 돌아갈 때 Chat Bot이 기계보단 사람에 가까워지게 한다.

최근 개발 작업) Ko-Bert 언어 AI 모델 개발

Bert 모델은 구글에서 이미 나온 모델이고 한국어 버전도 있으나 성능이 좋지 않아 한국어 최적화 된, 한국어를 이해하는 AI 모델을 개발했다. 토큰 처럼 나눠져 있는 부분이 많은 한국어의 특징을 위키 데이터 등을 사용해서 학습을 시켰다. 무엇보다 여러 개의 GPU를 사용한 분산 트레이닝이 가능하기 때문에 빠른 시간 내에 효율적으로 학습을 시킬 수 있으며 다양한 프레임 워크를 지원하고 있다.

그 외 2019년 ACL에 제출한 논문의 경우 1)대화 진행 상황을 추적하는 연구인 SUMBT와 2)시지각을 동시에 쓴 게임형태(Teller가 그림을 보고 설명하면 Drawer가 그 설명을 듣고 다시 그림을 그리는)의 연구인 CoDraw, 3)비슷한 두 Task가 있을 때 두 개의 성능을 동시에 향상시킬 수 있는 방법 연구인 Soft Representation Learning for Sparse Transfer 가 있다.

 

# Visual AI

Bilinear Attention Networks은 다양한 언어와 그림같은 것을 동시에 이해하고 그것에 대해 답을 내는 네트워크에 관한 연구이다. 이것의 Case Study가 그림을 보고 질문을 하면 그림과 질문을 모두 이해하여 답을 도출하는 연구 기술을 개발, 연구 중이다.

이런 연구는 사회적 가치를 추구하는 SK인만큼 시각 장애인을 위한 영상 이해 AI 기술 개발로 활용하기 위한 모델 개발을 진행 중이다. 인공 지능 학습에서 가장 중요한 것 중 하나는 어떤 데이터를 학습을 시켰는지가 가장 중요한데, 한국에서, 한국적으로, 한국형 데이터 셋은 별로 없는 상황이다. 그래서 한국 시각 장애인들이 직접 찍은 사진과 사진에 대한 질문과 답을 데이터 셋으로 묶어서 총 10만개의 데이터 셋을 모았고 그 데이터 셋으로 유릭스 학회에 제출, 논문으로 인정받았다. 그 데이터 셋은 공개되어 있고 연구용으로는 문제없이 사용할 수 있다.

Video Object Segmentation(VOS)은 영상에서 어떤 부분만을 분리해서 인식하는 기술이고 Video Object Detection(VOD)은 드론 영상에서 사람이나 차를 인식하는 것과 같은 물체 인식과 좀 더 관력이 있는 기술이다.

2019 CVPR DAVIS  Challenge 비지도학습부문에 참가해서 3등을 했다. 사람은 물체를 인식하는 것을 처음 몇 초안에 하고 인식하는 물체에 수도 한정되어 있다고 가정하고 그 인식되는 물체들을 계속 추적하면서 Segmentation을 진행하는 기법을 사용했다.

2019 ICCV VisDrone Challenge에 참가했는데 여기서 사용한 기법은 드론에서 찍어 균일하지 않은 영상을 Chip으로 만들어서 균일하게 만들어주는 기법으로 AI 학습 시 시간을 단축할 수 있는 방법 중 하나가 될 수 있다. 물체를 인식하기 위해선 그 물체를 AI에게 많이 보여줘서 학습을 시켜줘야 인식률이 좋아지는데 이를 빠른 시간 안에 좋게 하기 위해서 Patch-level Augmentation을 진행했다.  어떤 영상에서 차는 엄청 많은데 사람은 한 두명이면 사람을 학습하기에 적합한 환경이 아니므로 사람을 Patch 처럼 붙여 넣는 기법이다.