본문 바로가기
개발노트/머신러닝

[머신러닝] 빅데이터란

by 전지적진영시점 2023. 3. 8.
반응형

이번 포스팅 부터는 한동안 머신러닝과 딥러닝에 대해 작성해보려고 합니다.

챗봇에 발을 담궈보니 머신러닝과 딥러닝을 병행하여 공부하면 좋을 것 같습니다.

 

일단 몇권의 책과 함께 시작하려 합니다..

 

이 주제에 관한 포스팅은 제가 본 책들을 기반으로 한 요약 포스팅입니다.

 

지금 인터넷에 돌아다니는 컨텐츠들은 평생을 다 보아도 볼 수 없을 만큼의 방대한 양이며,

'콘텐츠 홍수의 시대'에 우리는 살고 있습니다.  이 시대에 플랫폼 회사들은 사용자의 관심에 기반을 둔 추천 서비스를 운영하지 않으면 수익을 내기 힘든 구조가 되었습니다.

 

 빅데이터란 정확히 어떤 것일까

빅데이터는 조직이 의사결정을 내리고 프로세스와 정책을 향상하며 고객 중심 제품과 서비스, 경험을 구축하는데 사용됩됩니다. 

 

정확히 어떤 기술이냐고 묻는다면 빅데이터는 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형, 비정형 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술이라고 말할 수 있겠습니다.

 

빅데이터의 가치는 데이터를 분석하고 이해할 수 있는 정도에 따라 측정됩니다.

 

빅데이터란 거대한 규모(volume). 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터. 3V 라고도 합니다

 

빅 데이터의 3대 요소 (3V)

 

양(volume) : 데이터는 양이 중요합니다. 빅데이터를 사용하면 저밀도 비정형 데이터를 대량으로 처리해야 하는데 웹 페이지나 모바일 앱의 클릭 스트림, twitter의 데이터 피드 등 알려지지 않은 값의 데이터가 여기에 해당됩니다. 빅데이터는 일반적인 컴퓨터에서 처리할 수 있는 메가바이트나 기가바이트 단위의 데이터를 넘어서는 테라바이트에서 페타바이트, 엑사바이트 이상의 데이터를 저장하여 분석하고 가공해야합니다. 

 

속도(velocity) : 속도는 데이터가 얼마나 빨리 수신 및 처리되는가를 나타냅니다. 빅데이터 기술을 활용해 데이터가 생성되는 동안 데이터베이스가 데이터를 (때로는 몇 밀리초 이내에) 처리, 분석, 구성할 수 있습니다. 기업의 경우 이는 실시간 데이터를 활용해 재무 기회를 포착하고 고객의 요구에 대응하며 부정 행위를 방지하고 속도가 중요한 기타 다른 활동을 해결합니다.

 

높은 다양성(variety) : 높은 다양성, 즉 종류는 사용 가능한 데이터의 유형 수를 나타냅니다. 기존 데이터 유형은 구조화되어 관계형 데이터 베이스에 적합했습니다. 하지만 정형 데이터로만 구성된 데이터 집합은 아무리 양이 커도 꼭 빅데이터가 되지 않습니다. 일반적으로 빅데이터는 정형, 비정형, 반정형 데이터의 조합으로 구성됩니다. 

 

 

다음 포스팅에서는 데이터 분석에 대해 알아보겠습니다 !

반응형

댓글