SITI WEB CLONATI – SCRAPING CONTENT
Traduzione autorizzata da Sucuri che detiene il copyright dell’articolo. Leggi l’articolo originale (in Inglese)
Si parla spesso di tattiche SEO black Hat e rubare contenuti ai siti è solo un esempio di tali tattiche. Fare lo scraping è l’atto di copiare tutto il contenuto di un sito web utilizzando script automatizzati, di solito con l’intenzione di rubare contenuti o di clonare totalmente il sito vittima.
Ultimamente abbiamo visto un numero abbastanza elevato di clienti colpiti da questo fenomeno. Daremo uno sguardo a questo tipo di attacco in una forma avanzata che si traduce nel fatto che il sito clonato si mostra nei risultati di ricerca al posto del sito originale. Questi siti alterano il modo in cui Google classifica i contenuti con l’invio di falso traffico organico e modificando i backlink interni sul sito clonato così che non puntino più al sito web della vittima.
Come i risultati di ricerca classificano i contenuti di un sito web
I motori di ricerca vogliono restituire le pagine migliori e più rilevanti nel loro risultati di ricerca al fine di garantire che gli utenti abbiano la migliore esperienza e trovino ciò che stanno cercando. In tal modo, le pagine con lo stesso contenuto (o simile) in più di una pagina, o più di un sito non sono aiutate nell’apparire nei risultati di ricerca. Uno dei fattori che prendono in considerazione è il traffico organico del sito. Questo aiuta a determinare la qualità del sito. Oltre a molti altri fattori, Google utilizza i reindirizzamenti per tenere traccia dell’utente che fa clic su una pagina dei risultati dei motori di ricerca (SERP), e se il ricercatore torna a cliccare altri risultati, perché non ha trovato quello che stavano cercando.
Secondo lo studio da Chitika:
Siti elencati sulla prima pagina dei risultati di ricerca di Google generano il 92% di tutto il traffico da una ricerca media.
Ha senso che qualsiasi tipo di attacco SEO abbia lo scopo di ottenere i migliori risultati all’interno dei risultati di Google in modo che la loro attività possa avere successo e generare più entrate possibile, o semplicemente danneggiare il SEO del sito web colpito.
Segni di essere stati colpiti da operazioni di scraper
Le tattiche di content scraping consentono agli aggressori di abusare del rapporto che il vostro sito ha con i motori di ricerca copiando il contenuto e trasformandolo in modo che non siano in grado di determinare chi è la fonte autorevole. La parte peggiore di questo tipo di attacco è che si nota solo quando è già troppo tardi – sia quando la pagina dei risultati dei motori (SERP) crolla o si vedono altri siti web nella pagina dei risultati che non sono tuoi.
Ho creato lo scenario per dimostrare questo attacco per una migliore comprensione.
Supponiamo che il sito web della vittima è hack.me e attacker.me è il sito clonato.
Prima e dopo l’attacco:
Sito clonato nei risultati di ricerca che mostra alla posizione numero 2
In questa immagine vediamo che l’attaccante ha effettivamente rubato il posizionamento del sito originale all’interno di ricerca di Google.
Un passo importante nel sapere come gestire meglio questo è quello di identificare esattamente come il contenuto è stato rubato:
- Se la modifica di contenuti sul vostro sito web cambia immediatamente il contenuto del sito clonato, questo significa che si tratta di uno script in esecuzione automatica.
- Se la modifica il contenuto del tuo sito web non fa alcuna differenza sul sito web di altri allora vuol dire che i dati sono già memorizzati.
Io dettaglio qui di seguito perché questo è importante.
Come i siti web vengono rubati
Per mostrare un esempio di come questo attacco avviene, possiamo guardare a uno script uno dei nostri sviluppatori (Lee Howarth):
Questo è tutto ciò che serve, in termini di codice, per afferrare tutti i contenuti da un sito web e tenerlo funzionante. Ciò può essere reso ancora più semplice di quello perché, per Googlebot, il sito non ha bisogno di essere graficamente strutturato. Ha bisogno solo di avere gli stessi contenuti e assets.
Ora che il codice è pronto, il passo successivo è quello di generare il maggior numero di hits possibili sul sito clonato all’interno di Google. Ciò aumenterà la priorità di tale sito agli occhi di Google. Una volta che il numero di hits ottenuti è abbastanza alta (tra gli altri vari fattori) i risultati di ricerca del sito copiato inizieranno a sostituire il sito della vittima. Per ottenere le visite richieste, gli attaccanti fanno uso parziale del rank che il sito dell’attaccante ha già, quindi ottengono un po ‘di più, pubblicando le pagine copiate in tutta la loro rete di siti web di attacco o anche facendo uso delle click farm (aziende con lavoratori a basso reddito utilizzati per attività fraudolente per generare clic per SEO o incremento dei ricavi).
Una volta che riescono a rubare i risultati, possono fare improvvisi cambiamenti al sito per qualsiasi tipo di scopo dannoso/minacce o anche solo per alimentare le loro campagne di spam in corso.
Il mio sito è stato compromesso?
No.
Questa parte è a volte difficile da capire perché il vostro sito è influenzato, ma non compromesso. Non è necessario compromettere un sito per far funzionare questo tipo di attacco. Il sito web che sta rubando i risultati è quello che è stato compromesso.
Come combattere questo fenomeno?
Diamo uno sguardo ad alcuni modi che abbiamo per prevenire e/o risolvere questo problema.
- Sfruttate il tag rel = canonical all’interno di ogni pagina. Questo è un tag che indica ai crawler di ricerca a quale dominio il contenuto in realtà appartiene. Per spiegare meglio, leggete questo articolo dettagliato su rel = canonical di Yoast. Questo è qualcosa che la maggior parte dei plugin SEO e professionisti dovrebbero già aggiungere per impostazione predefinita.
- Contattare il proprietario del sito web compromesso. Come ho fatto riferimento in precedenza, il sito di qualcun altro viene utilizzato per attaccare il vostro sito web, in quanto tale, è una buona idea per entrare in contatto con loro sia attraverso le informazioni WHOIS, o dai social media come Twitter. La maggior parte dei siti web al giorno d’oggi includono informazioni direttamente sul loro sito e quindi dovrebbe essere abbastanza facile da contattare qualcuno per informarli che sono stati compromessi e richiedere che rendano l’ambiente sicuro. (E ci si sente sempre bene essere un buon samaritano no?)
- Trova le informazioni WHOIS del sito clonato. È possibile cercare le informazioni WHOIS per il sito clonato o usufruire dei servizi di WHOIS per scoprire chi ospita il sito clonato. Entra in contatto con il loro reparto di abuso o supporto live, se disponibile, e informarli della manifestazione e richiedere che venga fermato. Se il sito utilizza un CDN o un Web Application Firewall (WAF), allora non esitate a contattare i fornitori e, in modo che essi possono inoltrare la richiesta al provider di hosting o di intervenire direttamente se stessi.
- Impostare un avviso di Google. È possibile fare in modo che Google avvisi l’utente se altri siti pubblicano una corrispondenza esatta per un titolo del tuo post. Dovrebbe avvisare l’utente nel momento il contenuto è stato rubato, il che è grande, visto che è gratuito e permette di fermare la cosa prima che diventi un problema.
- Bloccare le richieste dal sito clonato. Identificando l’IP del sito clonato, è possibile richiedere che tuo hosting provider di blocco di tutte le richieste che IP. Un modo semplice per ottenere questo è con l’aggiunta di poche righe al tuo .htaccess. Diciamo che il sito clonato ha il 192.168.190.190 IP, è possibile aggiungere questo al tuo .htaccess:
order allow, deny
deny from 192.168.190.190
allow from all - Avvisare Google dei contenuti copiati. Una volta identificato vostr contenuti copiati, vai alla pagina DMCA Google o visita questo link e seleziona Web Search. Siate sicuri di compilare tutto in modo appropriato in modo da avere tutti i link nefasti rimossi restituendo il vostro traffico entro un paio di giorni
Se si tratta di uno script automatico che sta facendo una copia diretta dei contenuti, semplicemente bloccare l’indirizzo IP del sito clonato dovrebbe risolvere il problema del contenuto che viene rubato, ma non torneranno immediatamente i risultati e il traffico. Questa è una buona soluzione sufficiente se siete a corto di tempo o il colpo non era stato così significativo.
Se i tuoi dati sono già memorizzati sul sito web allora si dovrebbe davvero provare tutte le opzioni per cercare di risolvere il problema al più presto possibile.
Prevenire che il SEO del tuo sito web venga rubato
Non c’è alcun modo garantito al 100% di fermare i content scraping. Come la maggior parte di hacker e black hat, sapranno sempre trovare un modo per aggirare le protezione. Ci sono molti servizi come Grammarly e Copyscape che è possibile utilizzare per trovare i contenuti copiati dal tuo sito. Oppure si può semplicemente prendere una linea da uno dei tuoi post e fare una ricerca su Google con le virgolette ( “line to look for“) e si dovrebbero trovare tutti i contenuti copiati se è stato già indicizzato da Google.
Il pensiero di essere il bersaglio di un attacco SEO non dovrebbe farti sentire vulnerabile. Dovrebbe incoraggiare a fare controlli regolari e migliorare la impostazioni di sicurezza. Ci sono un certo numero di modi per eliminare una pagina dalle SERP, come descritto sopra.
Se si opera in un settore competitivo è meglio essere proattivi. Contenuti regolari recensioni e controlli duplicati interni o esterni dovrebbero essere una parte della vostra strategia SEO.
Articolo di Cesar Anjos per Sucuri
E tu reputi importante la sicurezza del tuo sito? chiedimi maggiori informazioni sulla sicurezza online!