본문 바로가기
共感/IT 인터넷

'스크래핑(scraping)' 이란? 주요 특징, '크롤링'과의 차이점 등

by 꿈꾸는곰탱이 2025. 6. 11.
728x90
반응형
SMALL

'스크래핑(scraping)' 이란? 주요 특징, '크롤링'과의 차이점 등


'스크래핑'은 웹 페이지나 다른 데이터 소스에서 원하는 정보를 자동으로 추출하고 수집하는 기술 또는 행위를 말합니다. 보통 컴퓨터 프로그램을 이용해 웹사이트에 접속해서 HTML 코드를 분석하고, 그 안에서 필요한 데이터를 '긁어내는(scraping)' 방식으로 이루어집니다.


○ 스크래핑의 주요 특징

* 자동화: 사람이 직접 웹 페이지를 일일이 방문하며 데이터를 복사하는 대신, 프로그램이 이 과정을 자동으로 처리합니다.
* 특정 정보 추출: 웹 페이지의 모든 내용을 가져오는 것이 아니라, 가격, 제품명, 뉴스 기사 제목, 리뷰 내용 등 특정 목적에 맞는 데이터를 선별적으로 추출합니다.
* 데이터 정제 및 가공: 추출한 데이터를 분석하기 쉬운 형태로 변환하거나 필요한 부분만 잘라내는 등의 후처리 과정을 거치는 경우가 많습니다.

 스크래핑 vs. 크롤링

'스크래핑'과 '크롤링'은 혼용되는 경우가 많지만, 엄밀히 따지면 약간의 차이가 있습니다.

* 웹 크롤링 (Web Crawling): 웹상의 다양한 페이지를 돌아다니며 대규모의 데이터를 수집하고 색인화(indexing)하는 데 목적이 있습니다. 검색 엔진의 웹 크롤러(스파이더)가 대표적인 예시로, 웹사이트의 구조를 파악하고 어떤 링크에 어떤 정보가 있는지 탐색합니다. '도서관 전체를 돌아다니며 정보를 찾는 행위'에 비유할 수 있습니다.
* 웹 스크래핑 (Web Scraping): 특정 웹 페이지에서 구체적으로 필요한 정보만을 정밀하게 추출하는 데 초점을 둡니다. 이미 목표로 삼은 페이지에서 정해진 항목(예: 제품명, 가격, 리뷰 수)만 뽑아내는 방식입니다. '도서관에서 특정 책 한 권을 꺼내 필요한 문장만 발췌하는 행위'에 비유할 수 있습니다.

요약하자면, 크롤링은 '넓게 탐색'하는 것이고, 스크래핑은 '좁고 깊게 추출'하는 것이라고 할 수 있습니다. 물론 스크래핑 기술을 이용해 여러 페이지를 크롤링하는 방식으로 데이터를 수집하기도 합니다.


○  스크래핑의 주요 활용 분야

스크래핑은 다양한 분야에서 유용하게 활용됩니다.

* 시장 조사 및 경쟁 분석: 경쟁사 제품의 가격 변동, 고객 리뷰, 신제품 정보 등을 수집하여 시장 동향을 파악하고 비즈니스 전략을 수립합니다.
* 부동산 정보 수집: 특정 지역의 아파트 매매가, 전세가, 매물 정보 등을 수집하여 부동산 시장 분석에 활용합니다.
* 뉴스 및 콘텐츠 수집: 특정 주제의 뉴스 기사, 블로그 게시물, 포럼 게시물 등을 수집하여 콘텐츠 분석이나 새로운 서비스 개발에 사용합니다.
* 채용 정보 수집: 여러 기업의 채용 공고를 자동으로 모아 구직자에게 제공하는 서비스에 활용됩니다.
* 학술 연구: 웹상의 공개된 데이터를 수집하여 통계 분석, 언어학 연구 등에 활용합니다.
* 머신러닝/AI 학습 데이터 구축: AI 모델 학습에 필요한 대량의 데이터를 웹에서 수집합니다.

○  스크래핑 시 주의할 점 및 법적 문제

스크래핑은 매우 유용하지만, 남용하거나 부적절하게 사용할 경우 법적 문제에 휘말릴 수 있습니다.

* 저작권 침해: 스크래핑 대상 데이터나 콘텐츠에 저작권이 있는 경우, 권리자의 동의 없이 무단으로 복제하여 활용하면 저작권법을 위반할 수 있습니다.
* 정보통신망법 위반: 웹사이트의 보안 시스템을 우회하거나 정당한 접근 권한 없이 네트워크에 침입하는 방식으로 데이터를 수집하면 정보통신망법 위반 소지가 있습니다.
* 부정경쟁방지법 위반: 타인이 상당한 투자와 노력을 들여 구축한 데이터베이스를 무단으로 스크래핑하여 자신의 영업에 활용하는 것은 부정경쟁행위에 해당될 수 있습니다. (예: 경쟁사 쇼핑몰의 상품 정보를 그대로 가져와서 자기 쇼핑몰에 사용하는 경우)
* 서버 부하: 짧은 시간 내에 너무 많은 요청을 보내 웹사이트 서버에 과도한 부하를 주면 서비스 방해 행위로 간주될 수 있습니다.
* robots.txt 준수: 대부분의 웹사이트는 `robots.txt` 파일을 통해 크롤러나 스크래퍼의 접근 가능 영역을 명시합니다. 이는 법적 강제성은 없지만, 윤리적이고 합법적인 스크래핑을 위해 이 지침을 따르는 것이 중요합니다.

따라서 스크래핑을 계획할 때는 대상 웹사이트의 이용 약관을 확인하고, `robots.txt` 파일을 준수하며, 추출하려는 데이터의 저작권 및 개인 정보 보호 문제 등을 신중하게 검토해야 합니다.

https://im.newspic.kr/TFGBq1n

 

“책 한권 분량 데이터 크롤링비용 100만원…AI 데이터 수집 힘들어”

[이데일리 윤정훈 기자] 인공지능(AI) 관련 사업을 하는 기업들이 한목소리로 학습용 데이터를 구하는게 어렵다고 정부의 지원을 요청했다. 조인철 의원실은 26일 오전 국회의원회관

im.newspic.kr

https://im.newspic.kr/n6dyKFX

 

“윤석열, 지하 벙커 통째로 뜯어가”…청와대 이전 늦어지나

[이데일리 강소영 기자] 윤건영 더불어민주당 의원이 이재명 대통령의 청와대 복귀와 관련한 시기에 대해 “1~3개월 정도 소요된다”며 그 배경에 대해 윤석열 전 대통령이 집무실을 용

im.newspic.kr

https://im.newspic.kr/nqg97tV

 

전통시장 정육점 구매 꿀팁

내용: 띠용? 국내산이 외국산이였네 실은 전에도 걸렸음 ㅋㅋㅋㅋ 한돈(국내산)이라고 표기했두고 정작 물어보면 외국산이라고 답변을 해준다? 가격차이도 심할뿐더러 '하는  사

im.newspic.kr

 

728x90
반응형
SMALL