Data Science Data Analytics 이석주 님
직무인터뷰
Data Engineering팀에서는 어떤 일을 하나요?

Data Engineering팀의 업무를 한마디로 소개하면, 빅데이터(Big Data)를 쉽고 편리하게 분석할 수 있도록 Infra를 구축하고 운영하는 것입니다. 이를 통해 사내 여러 시스템에서 방대한 Data를 모으고, 정제하여 분석가에게 제공하죠. 이렇게 Data를 관리하기 위한 프레임워크뿐만 아니라, Data 기반의 다양한 서비스까지도 개발하고 있습니다.

Data Analytics팀과는 무엇이 다른가요?

Data Analytics은 Data Engineering팀에서 모은 Data를 분석해 Insight를 도출하고, 적재적소에 활용합니다. 이때 모델링(Modeling)이나 머신러닝(Machine Learning) 등의 기법을 활용하지요. 때문에 Data Analytics 직무는 통계나 데이터마이닝(Data Mining) 분야와 관련이 있다고 볼 수 있어요. Data Engineering 직무는 전산학이나 컴퓨터 공학 분야와 더 밀접하고요.

현재 석주 님이 담당하고 있는 일은 무엇인가요?

저는 빅데이터(Big Data)처리를 위한 Infra 구축과 운영을 담당하고 있어요. 구체적으로는 서버를 빅데이터(Big Data) 클러스터로 구성하는 일. 그리고 하둡 에코시스템(Hadoop-Ecosystem)을 구축하고 운영하는 일을 담당합니다. 또한 장애가 생기면 발빠르게 대응하고, 새로운 서비스에 대한 POC(Proof of Concept 시장에 나오지 않은 신제품의 사전 검증을 위해 사용되는 증명 과정)도 진행하죠.

*하둡(Hadoop): 빅데이터(Big Data) 분산 처리를 지원하는 오픈 소스(Open-source) 소프트웨어 프레임워크

굉장히 바쁠 것 같은데, 하루 일과가 어떻게 되나요?

매일 아침 출근하면 지난밤에 서비스 장애가 발생하지 않았는지, Data가 정상적으로 수집되었는지 확인하는 것으로 하루를 시작합니다. 문제가 없을 땐 개인별로 진행 중인 업무를 담당하지만, 제대로 처리되지 않았을 땐 담당자와 함께 문제를 해결합니다. 그 외에도 진행 중인 업무에 대한 회의에 주기적으로 참석하고 다양한 기술에 대한 세미나를 진행하기도 합니다.

다른 회사에 비해 SK텔레콤의 Data Engineering 직무만이 가지고 있는 강점이나 매력이 있나요?

SK텔레콤은 국내 최대 규모의 클러스터를 운영하는 회사입니다. 그 어느 회사보다 방대한 Data를 보유하고 있죠. 클러스터를 운영하거나 Data를 다루는 방면에서 유익한 경험의 기회가 많아요. 또한 사내 세미나를 통해 새로운 기술이나 Insight를 서로 공유하고 있는데요. 이렇게 본인의 실력을 키우면서 회사에 기여할 수 있는 환경이 잘 마련되어 있습니다.

역량인터뷰
Data Engineering 직무에 필요한 지식이나 역량은 어떤 것이 있을까요?

우선 기본적으로 프로그래밍 능력이 필요해요. 하둡(Hadoop)과 하둡 에코시스템(Hadoop-Ecosystem)은 대부분 Java로 작성되어 있습니다. 또한 Shell Script, Python 등의 프로그래밍 언어도 자주 사용되죠. 때문에 이러한 언어들은 필수적으로 다룰 수 있어야 해요. 또한 하둡 에코시스템의 기능, 특징에 대한 이해도 필요합니다. 현업에서는 HFDS, MapReduce, Hive, Spark 등의 시스템이 많이 사용되고 있기 때문에 각 시스템이 어떤 기능을 수행하며, 어떤 특징과 장단점을 가지고 있는지 알고 활용할 수 있어야 합니다.

지식적인 부분 외에 어떤 사람이 Data Engineering 직무와 적합한가요?

매일 새로운 기술이 생겨나고, 빠르게 변화하는 분야이기 때문에 새로운 기술을 거부감 없이 배울 수 있는 사람이 적합하다고 생각해요. 또한 오픈 소스(Open-source) 기반인 시스템이 대부분이라, 알 수 없는 문제가 발생하거나 오류가 생길 때가 있습니다. 문제가 생겼을 때 당황하지 않고, 원인을 발빠르게 파악해 해결할 수 있는 사람이면 좋을 것 같아요.

Data Engineering 직무에 지원하는 미래의 동료들에게 조언 부탁드립니다.

운영체제(OS), 데이터베이스(Database), Network 등 컴퓨터에 대한 기본적인 지식을 쌓은 후 빅데이터(Big Data)를 배우길 추천합니다. 빅데이터라는 분야가 신기술 같지만, 대부분 기존의 Data 처리 모델을 분산 처리 환경에 맞도록 변형한 경우가 많거든요. 빅데이터 시스템을 실제로 구성해 보고, 이를 통해 Data를 적재하고 처리하는 경험을 꼭 해보시기 바랍니다. 이 과정에서 본인만의 생각과 노하우를 잘 정리해 놓는다면 많은 도움이 될 거예요.