Com bloquejar els rastrejadors d'OpenAI perquè raspin el vostre lloc web

Com bloquejar els rastrejadors d'OpenAI perquè raspin el vostre lloc web
Lectors com tu ajuden a donar suport a MUO. Quan feu una compra mitjançant enllaços al nostre lloc, podem guanyar una comissió d'afiliats. Llegeix més.

Tot i que els usuaris estimen ChatGPT per la gran quantitat d'informació que conté actualment, no es pot dir el mateix dels propietaris de llocs web.





MUO Vídeo del dia DESPLACEU PER CONTINUAR AMB EL CONTINGUT

El ChatGPT d'OpenAI utilitza rastrejadors per raspar llocs web, però si sou propietari d'un lloc web i no voleu que el rastrejador d'OpenAI accedeixi al vostre lloc web, aquí teniu algunes coses que podeu fer per evitar-ho.





Com funciona el rastreig OpenAI?

A rastrejador web (també conegut com aranya o robot de cerca) és un programa automatitzat que explora Internet per obtenir informació. A continuació, recopila aquesta informació de manera que el vostre motor de cerca hi pugui accedir fàcilment.





Els rastrejadors web indexen cada pàgina de cada URL rellevant, normalment se centren en llocs web que són més rellevants per a les vostres consultes de cerca. Per exemple, suposem que esteu buscant a Google un error de Windows concret. El rastrejador web del vostre motor de cerca escanejarà tots els URL dels llocs web que consideri més autoritzats sobre el tema dels errors de Windows.

El rastrejador web d'OpenAI s'anomena GPTBot, i segons Documentació d'OpenAI , donar accés a GPTBot al vostre lloc web pot ajudar a entrenar el model d'IA perquè sigui més segur i més precís, i fins i tot pot ajudar a ampliar les capacitats del model d'IA.



Com evitar que OpenAI rastregi el vostre lloc web

Com la majoria d'altres rastrejadors web, es pot bloquejar l'accés de GPTBot al vostre lloc web modificant el seu lloc web. robots.txt protocol (també conegut com a protocol d'exclusió de robots). Aquest fitxer .txt està allotjat al servidor del lloc web i controla com es comporten els rastrejadors web i altres programes automatitzats al vostre lloc web.

Aquí teniu una breu llista del que robot.txt fitxer pot fer:





  • Pot bloquejar completament l'accés de GPTBot al lloc web.
  • Només pot bloquejar determinades pàgines d'un URL perquè GPTBot accedeixi.
  • Pot dir a GPTBot quins enllaços pot seguir i quins no.

A continuació s'explica com controlar què pot fer GPTBot al vostre lloc web:

Bloqueja completament que GPTBot accedeixi al teu lloc web

  1. Configureu el fitxer robot.txt , i després editeu-lo amb qualsevol eina d'edició de text.
  2. Afegiu el GPTBot al vostre lloc robots.txt com segueix:
 User-agent: GPTBot 
Disallow: /

Bloqueja que GPTBot només accedeixi a determinades pàgines

  1. Configura el robot.txt fitxer i, a continuació, editeu-lo amb la vostra eina d'edició de text preferida.
  2. Afegiu el GPTBot al vostre lloc robots.txt com segueix:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Tanmateix, tingueu en compte que canviant el robot.txt El fitxer no és una solució retroactiva i la informació que GPTBot ja hagi recopilat del vostre lloc web no es podrà recuperar.





OpenAI permet als propietaris de llocs web desactivar-se del rastreig

Des que els rastrejadors s'han utilitzat per entrenar models d'IA, els propietaris de llocs web han estat buscant maneres de mantenir privades les seves dades.

com treure bloatware de Windows 10

Alguns temen que els models d'IA bàsicament els roben el treball, fins i tot atribueixen menys visites al lloc web al fet que ara els usuaris reben la seva informació sense haver de visitar mai els seus llocs web.

Tot plegat, si voleu bloquejar completament els xatbots d'IA per escanejar els vostres llocs web és completament la vostra elecció.