챗GPT를 차단하는 방법 : 이번 주에 챗GPT 생성 인공지능(AI) 시스템을 개발한 오픈AI는 최신 웹 크롤러인 GPTBot을 발표하고 웹 마스터가 웹 사이트 색인화를 방지하기 위해 취할 수 있는 조치를 포함시켰습니다. 이번 결정은 OpenAI와 챗GPT에 있어서 큰 변화를 의미합니다.
이전에 웹마스터들은 다양한 시스템을 사용해 콘텐츠를 색인화했습니다. 따라서 챗GPT를 구체적으로 차단할 수 있는 쉬운 방법이 없었고, 웹마스터는 챗GPT의 색인 생성을 막기 위해 구글이나 빙과 같은 더 바람직한 봇을 포함한 모든 봇을 차단해야만 했습니다.
하지만, 이제 웹마스터는 다른 봇을 차단하지 않고 챗GPT를 직접 차단할 수 있습니다. 오픈AI는 봇이 robots.txt 표준을 따르며, 챗GPT에 사용하기 위해 색인화를 원하지 않는다는 의사를 분명히 밝힌다면 나의 콘텐츠를 도둑질 당하는 일은 없겠습니다.
robots.txt의 기본
웹 크롤러(스파이더라고도 함)는 기본적으로 웹을 검색하거나 크롤링하여 찾은 콘텐츠를 캡처하는 애플리케이션입니다. 가장 일반적인 예는 웹 크롤러를 사용하여 웹 사이트의 색인을 생성하고 검색 결과를 제공하는 구글 과 빙과 같은 검색 엔진을 말합니다.
다른 예로는 스파이더를 사용하여 인터넷 아카이브를 만들거나 새로 만든 저작물의 표절을 감지하는 것 등이 있습니다. 웹 크롤러는 악의적인 목적으로도 사용될 수 있습니다. 크롤러는 개인 정보 수집, 불법 복제용 콘텐츠 수집 등에 사용되어 왔고 지금도 사용되고 있습니다.
따라서 웹 크롤러가 사이트의 일부 또는 전체에 액세스하지 못하도록 차단해야 하는 경우가 많습니다. 이를 위한 많은 도구가 있지만 가장 중요한 도구 중 하나는 바로 robots.txt 파일입니다. robots.txt는 사이트를 방문하는 크롤러에게 지침을 제공하기 위해 서버에 배치되는 파일입니다. 이 파일은 크롤링에 물리적 또는 기술적 장벽을 만들지는 않지만 합법적인 크롤러가 일반적으로 따르기로 동의하는 지침을 제공합니다.
예를 들어 rbots.txt를 사용하여 모든 웹 크롤러가 사이트에 액세스할 수 있도록 허용하고 차단하려는 크롤러를 하나 이상 저장할 수 있습니다. 대부분의 사이트에 대한 액세스는 허용하되 특정 폴더나 파일에 대한 액세스는 제한할 수 있습니다. 원치 않는 크롤러를 차단하거나, 개인 정보가 색인되는 것을 방지하거나, 단순히 콘텐츠가 중복되지 않도록 하는 등 원치 않는 크롤링을 방지하는 강력한 도구입니다.
하지만 비윤리적인 크롤러가 robots.txt를 무시하는 것을 막을 수 있는 방법은 없습니다. 많은 크롤러가 종종 그렇게 하기 때문에 “나쁜 봇”이 다른 방법으로 사이트에 액세스하지 못하도록 차단하는 서비스 업계(워드펜스 같은 웹사이트 방화벽)가 존재합니다.
하지만, 챗GPT는 robots.txt를 존중한다고 밝힘과 동시에 크롤러를 구체적으로 타겟팅할 수 있는 방법을 제공했습니다. 챗GPT 봇을 차단하면 나의 콘텐츠가 챗GPT에 제공되는 것을 막을 수 있습니다. 이것은 전적으로 웹마스터가 결정해야 할 사항입니다.
챗GPT를 차단하는 방법
프로세스의 첫 번째 단계는 사이트의 robots.txt 파일에 액세스하여 편집하는 것입니다. 이 작업의 용이성은 사이트 구축 방식에 따라 크게 달라집니다. 예를 들어, 워드프레스 사용자는 Yoast SEO , Rankmath와 같은 플러그인을 사용하여 robots.txt 파일을 빠르고 쉽게 편집할 수 있습니다. 윅스 사용자라면 별도의 지침을 따라야 합니다.
어떤 웹사이트를 소유하고 있던 어떤 방식으로던 robots.txt 파일에 액세스할 수 있게 되면 OpenAI에서 제공하는 코드를 복사하여 붙여넣기만 하면 웹 크롤러를 차단할 수 있습니다.
User-agent : GPTBot
Disallow : /
robots.txt 표준에 따르면 크롤러는 가장 구체적인 규칙만 따라야 하므로 순서는 중요하지 않습니다. 예를 들어, 이렇게 하면 GPTBot을 제외한 모든 크롤러가 허용됩니다.
User-agent : *
Allow : /
User-agent : GPTBot
Disallow : /
코드를 추가하고 파일을 저장하면 즉시 적용되므로 다음에 GPTBot이 사이트를 방문할 때 해당 코드를 볼 수 있습니다. 자신이 코드를 올바르게 추가했는지 확인하고 싶다면 웹사이트 주소 뒤에 robots.txt 를 입력하면 됩니다.
- 예를들어, https://123.kr/robots.txt
챗GPT를 차단하는 방법 그 이유는?
실용적인 관점에서 보자면 GPTBot과 같은 크롤러는 서버 리소스를 사용합니다. 일반적으로 그 양이 적고 거의 눈에 띄지 않지만 리소스가 제한된 호스팅 요금제를 사용하는 사람들에게는 문제가 될 수 있습니다.
그러나 훨씬 더 큰 문제는 사람이 생성한 콘텐츠를 ChatGPT 학습에 사용한다는 것입니다. 제너레이티브 AI는 사람이 만든 콘텐츠가 산더미처럼 쌓여 있지 않으면 학습할 수 없으며, 윤리적 및 법적 이유로 많은 사람들이 자신의 저작물이 이러한 방식으로 사용되는 것을 원치 않습니다.
웹사이트의 콘텐츠가 많을 수록 자신이 직접 창작한 콘텐츠들을 챗GPT가 크롤링해 활용할 수 있습니다. 그렇게 되면 챗GPT를 사용하는 수 많은 블로거들에 의해 유사문서는 물론 제공되는 수 많은 비슷한 정보로 인해 검색창이 지저분 해질 수 있다는 것입니다. 인터넷 검색창이 수 많은 비슷한 정보들로 범람한다면 어느 웹사이트가 최하단에 박히게 될까요?