ail-framework/bin/torcrawler/TorSplashCrawler.py

#!/usr/bin/env python3
# -*-coding:UTF-8 -*

import os
import sys
import uuid
import datetime
import redis
import json
import time

from hashlib import sha256

from scrapy.spidermiddlewares.httperror import HttpError
from twisted.internet.error import DNSLookupError
from twisted.internet.error import TimeoutError
from twisted.web._newclient import ResponseNeverReceived

from scrapy import Spider
from scrapy.linkextractors import LinkExtractor
from scrapy.crawler import CrawlerProcess, Crawler

from scrapy_splash import SplashRequest, SplashJsonResponse

sys.path.append(os.environ['AIL_BIN'])
from Helper import Process

sys.path.append(os.path.join(os.environ['AIL_BIN'], 'lib'))
#import ConfigLoader
import Screenshot
import crawlers

script_cookie = """
function main(splash, args)
    -- Default values
    splash.js_enabled = true
    splash.private_mode_enabled = true
    splash.images_enabled = true
    splash.webgl_enabled = true
    splash.media_source_enabled = true

    -- Force enable things
    splash.plugins_enabled = true
    splash.request_body_enabled = true
    splash.response_body_enabled = true

    splash.indexeddb_enabled = true
    splash.html5_media_enabled = true
    splash.http2_enabled = true

    -- User defined
    splash.resource_timeout = args.resource_timeout
    splash.timeout = args.timeout

    -- Allow to pass cookies
    splash:init_cookies(args.cookies)

    -- Run
    ok, reason = splash:go{args.url}
    if not ok and not reason:find("http") then
        return {
            error = reason,
            last_url = splash:url()
        }
    end
    if reason == "http504" then
        splash:set_result_status_code(504)
        return ''
    end

    splash:wait{args.wait}
    -- Page instrumentation
    -- splash.scroll_position = {y=1000}
    splash:wait{args.wait}
    -- Response
    return {
        har = splash:har(),
        html = splash:html(),
        png = splash:png{render_all=true},
        cookies = splash:get_cookies(),
        last_url = splash:url()
    }
end
"""

class TorSplashCrawler():

    def __init__(self, splash_url, crawler_options):
        self.process = CrawlerProcess({'LOG_ENABLED': True})
        self.crawler = Crawler(self.TorSplashSpider, {
            'USER_AGENT': crawler_options['user_agent'],
            'SPLASH_URL': splash_url,
            'ROBOTSTXT_OBEY': False,
            'DOWNLOADER_MIDDLEWARES': {'scrapy_splash.SplashCookiesMiddleware': 723,
                                       'scrapy_splash.SplashMiddleware': 725,
                                       'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
                                       'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
                                       },
            'SPIDER_MIDDLEWARES': {'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,},
            'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',
            'HTTPERROR_ALLOW_ALL': True,
            'RETRY_TIMES': 2,
            'CLOSESPIDER_PAGECOUNT': crawler_options['closespider_pagecount'],
            'DEPTH_LIMIT': crawler_options['depth_limit'],
            'SPLASH_COOKIES_DEBUG': False
            })

    def crawl(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item):
        self.process.crawl(self.crawler, splash_url=splash_url, type=type, crawler_options=crawler_options, date=date, requested_mode=requested_mode, url=url, domain=domain, port=port, cookies=cookies, original_item=original_item)
        self.process.start()

    class TorSplashSpider(Spider):
        name = 'TorSplashSpider'

        def __init__(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item, *args, **kwargs):
            self.splash_url = splash_url
            self.domain_type = type
            self.requested_mode = requested_mode
            self.original_item = original_item
            self.root_key = None
            self.start_urls = url
            self.domains = [domain]
            self.port = str(port)
            date_str = '{}/{}/{}'.format(date['date_day'][0:4], date['date_day'][4:6], date['date_day'][6:8])
            self.full_date = date['date_day']
            self.date_month = date['date_month']
            self.date_epoch = int(date['epoch'])

            self.png = crawler_options['png']
            self.har = crawler_options['har']
            self.cookies = cookies

            config_section = 'Crawler'
            self.p = Process(config_section)
            self.item_dir = os.path.join(self.p.config.get("Directories", "crawled"), date_str )
            self.har_dir = os.path.join(os.environ['AIL_HOME'], self.p.config.get("Directories", "crawled_screenshot"), date_str )
            self.r_serv_log_submit = redis.StrictRedis(
                host=self.p.config.get("Redis_Log_submit", "host"),
                port=self.p.config.getint("Redis_Log_submit", "port"),
                db=self.p.config.getint("Redis_Log_submit", "db"),
                decode_responses=True)

            self.root_key = None

        def build_request_arg(self, cookies):
            return {'wait': 10,
                    'resource_timeout': 30, # /!\ Weird behaviour if timeout < resource_timeout /!\
                    'timeout': 30,
                    'cookies': cookies,
                    'lua_source': script_cookie
                }

        def start_requests(self):
            l_cookies = self.build_request_arg(self.cookies)
            yield SplashRequest(
                self.start_urls,
                self.parse,
                errback=self.errback_catcher,
                endpoint='execute',
                meta={'father': self.original_item, 'current_url': self.start_urls},
                args=l_cookies
            )

        # # TODO: remove duplicate and anchor
        def parse(self,response):
            #print(response.headers)
            #print(response.status)
            if response.status == 504:
                # no response
                #print('504 detected')
                pass

            # LUA ERROR # # TODO: print/display errors
            elif 'error' in response.data:
                if(response.data['error'] == 'network99'):
                    ## splash restart ##
                    error_retry = request.meta.get('error_retry', 0)
                    if error_retry < 3:
                        error_retry += 1
                        url= request.meta['current_url']
                        father = request.meta['father']

                        self.logger.error('Splash, ResponseNeverReceived for %s, retry in 10s ...', url)
                        time.sleep(10)
                        yield SplashRequest(
                            url,
                            self.parse,
                            errback=self.errback_catcher,
                            endpoint='execute',
                            cache_args=['lua_source'],
                            meta={'father': father, 'current_url': url, 'error_retry': error_retry},
                            args=self.build_request_arg(response.cookiejar)
                        )
                    else:
                        print('Connection to proxy refused')
                else:
                    print(response.data['error'])

            elif response.status != 200:
                print('other response: {}'.format(response.status))
                # detect connection to proxy refused
                error_log = (json.loads(response.body.decode()))
                print(error_log)
            #elif crawlers.is_redirection(self.domains[0], response.data['last_url']):
            #    pass # ignore response
            else:

                item_id = crawlers.create_item_id(self.item_dir, self.domains[0])
                self.save_crawled_item(item_id, response.data['html'])
                crawlers.create_item_metadata(item_id, self.domains[0], response.data['last_url'], self.port, response.meta['father'])

                if self.root_key is None:
                    self.root_key = item_id
                    crawlers.add_domain_root_item(item_id, self.domain_type, self.domains[0], self.date_epoch, self.port)
                    crawlers.create_domain_metadata(self.domain_type, self.domains[0], self.port, self.full_date, self.date_month)

                if 'cookies' in response.data:
                    all_cookies = response.data['cookies']
                else:
                    all_cookies = []

                # SCREENSHOT
                if 'png' in response.data and self.png:
                    sha256_string = Screenshot.save_crawled_screeshot(response.data['png'], 5000000, f_save=self.requested_mode)
                    if sha256_string:
                        Screenshot.save_item_relationship(sha256_string, item_id)
                        Screenshot.save_domain_relationship(sha256_string, self.domains[0])
                # HAR
                if 'har' in response.data and self.har:
                    crawlers.save_har(self.har_dir, item_id, response.data['har'])

                le = LinkExtractor(allow_domains=self.domains, unique=True)
                for link in le.extract_links(response):
                    l_cookies = self.build_request_arg(all_cookies)
                    yield SplashRequest(
                        link.url,
                        self.parse,
                        errback=self.errback_catcher,
                        endpoint='execute',
                        meta={'father': item_id, 'current_url': link.url},
                        args=l_cookies
                    )

        def errback_catcher(self, failure):
            # catch all errback failures,
            self.logger.error(repr(failure))

            if failure.check(ResponseNeverReceived):
                ## DEBUG ##
                self.logger.error(failure.request)
                if failure.value.response:
                    self.logger.error(failure.value.response)
                ## ----- ##

                # Extract request metadata
                url = failure.request.meta['current_url']
                father = failure.request.meta['father']
                l_cookies = self.build_request_arg(failure.request.meta['splash']['args']['cookies'])

                # Check if Splash restarted
                if not crawlers.is_splash_reachable(self.splash_url):
                    self.logger.error('Splash, ResponseNeverReceived for %s, retry in 30s ...', url)
                    time.sleep(30)

                yield SplashRequest(
                    url,
                    self.parse,
                    errback=self.errback_catcher,
                    endpoint='execute',
                    meta={'father': father, 'current_url': url},
                    args=l_cookies
                )

            else:
                self.logger.error(failure.type)
                self.logger.error(failure.getErrorMessage())

        def save_crawled_item(self, item_id, item_content):
            gzip64encoded = crawlers.save_crawled_item(item_id, item_content)

            # Send item to queue
            # send paste to Global
            relay_message = "{0} {1}".format(item_id, gzip64encoded)
            self.p.populate_set_out(relay_message, 'Mixer')

            # increase nb of paste by feeder name
            self.r_serv_log_submit.hincrby("mixer_cache:list_feeder", "crawler", 1)

            # tag crawled paste
            msg = 'infoleak:submission="crawler";{}'.format(item_id)
            self.p.populate_set_out(msg, 'Tags')
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`#!/usr/bin/env python3`
			`# --coding:UTF-8 -`

			`import os`
			`import sys`
			`import uuid`
			`import datetime`
			`import redis`
chg: [Crawler] crawler accept all kind of domains 2018-08-24 08:13:56 +00:00			`import json`
fix: [Crawler] Restart Splash on failure, limit unbound in memory cache (maxrss) 2019-01-04 14:51:08 +00:00			`import time`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00
chg: [crawled screenshot] use sha256 as filepath 2019-04-24 12:09:04 +00:00			`from hashlib import sha256`

chg: [Showpaste] add screenshot + improve onion db 2018-08-16 15:24:39 +00:00			`from scrapy.spidermiddlewares.httperror import HttpError`
			`from twisted.internet.error import DNSLookupError`
			`from twisted.internet.error import TimeoutError`
fix: [Crawler] Restart Splash on failure, limit unbound in memory cache (maxrss) 2019-01-04 14:51:08 +00:00			`from twisted.web._newclient import ResponseNeverReceived`
chg: [Showpaste] add screenshot + improve onion db 2018-08-16 15:24:39 +00:00
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`from scrapy import Spider`
			`from scrapy.linkextractors import LinkExtractor`
			`from scrapy.crawler import CrawlerProcess, Crawler`

chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`from scrapy_splash import SplashRequest, SplashJsonResponse`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00
			`sys.path.append(os.environ['AIL_BIN'])`
			`from Helper import Process`

chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`sys.path.append(os.path.join(os.environ['AIL_BIN'], 'lib'))`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`#import ConfigLoader`
			`import Screenshot`
chg: [crawler - cookies] add/show/select cookies 2020-03-24 16:15:43 +00:00			`import crawlers`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00
			`script_cookie = """`
			`function main(splash, args)`
			`-- Default values`
			`splash.js_enabled = true`
			`splash.private_mode_enabled = true`
			`splash.images_enabled = true`
			`splash.webgl_enabled = true`
			`splash.media_source_enabled = true`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`-- Force enable things`
			`splash.plugins_enabled = true`
			`splash.request_body_enabled = true`
			`splash.response_body_enabled = true`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`splash.indexeddb_enabled = true`
			`splash.html5_media_enabled = true`
			`splash.http2_enabled = true`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`-- User defined`
			`splash.resource_timeout = args.resource_timeout`
			`splash.timeout = args.timeout`

chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`-- Allow to pass cookies`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`splash:init_cookies(args.cookies)`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`-- Run`
			`ok, reason = splash:go{args.url}`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`if not ok and not reason:find("http") then`
			`return {`
			`error = reason,`
			`last_url = splash:url()`
			`}`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`end`
chg: [Crawler core + UI] crawler lua: handle retry + fix cookie loader and selector 2020-03-30 16:43:50 +00:00			`if reason == "http504" then`
			`splash:set_result_status_code(504)`
			`return ''`
			`end`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`splash:wait{args.wait}`
			`-- Page instrumentation`
			`-- splash.scroll_position = {y=1000}`
			`splash:wait{args.wait}`
			`-- Response`
			`return {`
			`har = splash:har(),`
			`html = splash:html(),`
			`png = splash:png{render_all=true},`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`cookies = splash:get_cookies(),`
			`last_url = splash:url()`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`}`
			`end`
			`"""`

chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`class TorSplashCrawler():`

chg: [Crawler] refractor 2019-02-21 08:54:43 +00:00			`def __init__(self, splash_url, crawler_options):`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`self.process = CrawlerProcess({'LOG_ENABLED': True})`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`self.crawler = Crawler(self.TorSplashSpider, {`
chg: [Crawler] refractor 2019-02-21 08:54:43 +00:00			`'USER_AGENT': crawler_options['user_agent'],`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`'SPLASH_URL': splash_url,`
			`'ROBOTSTXT_OBEY': False,`
			`'DOWNLOADER_MIDDLEWARES': {'scrapy_splash.SplashCookiesMiddleware': 723,`
			`'scrapy_splash.SplashMiddleware': 725,`
			`'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`},`
			`'SPIDER_MIDDLEWARES': {'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,},`
			`'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',`
chg: [Crawler] catch server response 2018-09-17 13:35:06 +00:00			`'HTTPERROR_ALLOW_ALL': True,`
chg: [Crawler core + UI] crawler lua: handle retry + fix cookie loader and selector 2020-03-30 16:43:50 +00:00			`'RETRY_TIMES': 2,`
chg: [Crawler] refractor 2019-02-21 08:54:43 +00:00			`'CLOSESPIDER_PAGECOUNT': crawler_options['closespider_pagecount'],`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`'DEPTH_LIMIT': crawler_options['depth_limit'],`
chg: [Crawler core + UI] crawler lua: handle retry + fix cookie loader and selector 2020-03-30 16:43:50 +00:00			`'SPLASH_COOKIES_DEBUG': False`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`})`

fix: [crawler] fix ResponseNeverReceived hanlder, check if splash restarted 2020-09-14 15:03:36 +00:00			`def crawl(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item):`
			`self.process.crawl(self.crawler, splash_url=splash_url, type=type, crawler_options=crawler_options, date=date, requested_mode=requested_mode, url=url, domain=domain, port=port, cookies=cookies, original_item=original_item)`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`self.process.start()`

			`class TorSplashSpider(Spider):`
			`name = 'TorSplashSpider'`

fix: [crawler] fix ResponseNeverReceived hanlder, check if splash restarted 2020-09-14 15:03:36 +00:00			`def __init__(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item, args, *kwargs):`
			`self.splash_url = splash_url`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`self.domain_type = type`
chg: [crawler] manual/auto crawler: always save screenshots 2019-05-13 12:24:16 +00:00			`self.requested_mode = requested_mode`
chg: [Crawler] major refractor 2019-02-25 15:38:50 +00:00			`self.original_item = original_item`
chg: [Crawler] refractor 2019-02-22 16:00:24 +00:00			`self.root_key = None`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`self.start_urls = url`
chg: [Onion] change onion regex, fix crawler 2018-08-13 07:23:14 +00:00			`self.domains = [domain]`
chg: [Crawler] handle port: crawling + history 2019-03-22 15:48:07 +00:00			`self.port = str(port)`
chg: [Crawler] major refractor 2019-02-25 15:38:50 +00:00			`date_str = '{}/{}/{}'.format(date['date_day'][0:4], date['date_day'][4:6], date['date_day'][6:8])`
			`self.full_date = date['date_day']`
			`self.date_month = date['date_month']`
			`self.date_epoch = int(date['epoch'])`
fix: [crawler] cleanup 2020-03-20 15:20:01 +00:00
chg: [crawler] add cookies list by user/global, save cookies from file + dict(name, value), TODO: API + handle errors 2020-03-23 17:00:09 +00:00			`self.png = crawler_options['png']`
			`self.har = crawler_options['har']`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`self.cookies = cookies`

chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`config_section = 'Crawler'`
			`self.p = Process(config_section)`
			`self.item_dir = os.path.join(self.p.config.get("Directories", "crawled"), date_str )`
			`self.har_dir = os.path.join(os.environ['AIL_HOME'], self.p.config.get("Directories", "crawled_screenshot"), date_str )`
			`self.r_serv_log_submit = redis.StrictRedis(`
			`host=self.p.config.get("Redis_Log_submit", "host"),`
			`port=self.p.config.getint("Redis_Log_submit", "port"),`
			`db=self.p.config.getint("Redis_Log_submit", "db"),`
			`decode_responses=True)`

			`self.root_key = None`

chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`def build_request_arg(self, cookies):`
			`return {'wait': 10,`
chg: [Crawler core + UI] crawler lua: handle retry + fix cookie loader and selector 2020-03-30 16:43:50 +00:00			`'resource_timeout': 30, # /!\ Weird behaviour if timeout < resource_timeout /!\`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`'timeout': 30,`
			`'cookies': cookies,`
			`'lua_source': script_cookie`
			`}`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00
			`def start_requests(self):`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`l_cookies = self.build_request_arg(self.cookies)`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`yield SplashRequest(`
			`self.start_urls,`
			`self.parse,`
fix: [Crawler] Restart Splash on failure, limit unbound in memory cache (maxrss) 2019-01-04 14:51:08 +00:00			`errback=self.errback_catcher,`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`endpoint='execute',`
fix: [crawler] error catcher 2020-04-01 12:58:27 +00:00			`meta={'father': self.original_item, 'current_url': self.start_urls},`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`args=l_cookies`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`)`

chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`# # TODO: remove duplicate and anchor`
chg: [Onion] add onion splash crawler 2018-08-09 15:42:21 +00:00			`def parse(self,response):`
chg: [Crawler] crawler accept all kind of domains 2018-08-24 08:13:56 +00:00			`#print(response.headers)`
			`#print(response.status)`
chg: [Crawler] catch server response 2018-09-17 13:35:06 +00:00			`if response.status == 504:`
chg: [Crawler core + UI] crawler lua: handle retry + fix cookie loader and selector 2020-03-30 16:43:50 +00:00			`# no response`
			`#print('504 detected')`
			`pass`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
			`# LUA ERROR # # TODO: print/display errors`
			`elif 'error' in response.data:`
			`if(response.data['error'] == 'network99'):`
fix: [Crawler splash ResponseNeverReceived] add retry 2020-04-06 08:52:44 +00:00			`## splash restart ##`
			`error_retry = request.meta.get('error_retry', 0)`
			`if error_retry < 3:`
			`error_retry += 1`
			`url= request.meta['current_url']`
			`father = request.meta['father']`

			`self.logger.error('Splash, ResponseNeverReceived for %s, retry in 10s ...', url)`
			`time.sleep(10)`
			`yield SplashRequest(`
			`url,`
			`self.parse,`
			`errback=self.errback_catcher,`
			`endpoint='execute',`
			`cache_args=['lua_source'],`
fix: [crawler] typo 2020-04-06 08:57:51 +00:00			`meta={'father': father, 'current_url': url, 'error_retry': error_retry},`
fix: [Crawler splash ResponseNeverReceived] add retry 2020-04-06 08:52:44 +00:00			`args=self.build_request_arg(response.cookiejar)`
			`)`
			`else:`
			`print('Connection to proxy refused')`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`else:`
			`print(response.data['error'])`

chg: [Crawler] catch server response 2018-09-17 13:35:06 +00:00			`elif response.status != 200:`
chg: [Crawler] css + limit splash RAM 2018-09-27 14:47:48 +00:00			`print('other response: {}'.format(response.status))`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`# detect connection to proxy refused`
fix: [Crawler] detect splash connection to proxy error 2018-09-27 13:43:03 +00:00			`error_log = (json.loads(response.body.decode()))`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`print(error_log)`
chg: [cookiejar UI] add cookiejar + show all 2020-03-27 16:06:26 +00:00			`#elif crawlers.is_redirection(self.domains[0], response.data['last_url']):`
			`# pass # ignore response`
chg: [Crawler] catch server response 2018-09-17 13:35:06 +00:00			`else:`

chg: [crawler - cookies] add/show/select cookies 2020-03-24 16:15:43 +00:00			`item_id = crawlers.create_item_id(self.item_dir, self.domains[0])`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`self.save_crawled_item(item_id, response.data['html'])`
chg: [crawler - cookies] add/show/select cookies 2020-03-24 16:15:43 +00:00			`crawlers.create_item_metadata(item_id, self.domains[0], response.data['last_url'], self.port, response.meta['father'])`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
			`if self.root_key is None:`
			`self.root_key = item_id`
chg: [crawler - cookies] add/show/select cookies 2020-03-24 16:15:43 +00:00			`crawlers.add_domain_root_item(item_id, self.domain_type, self.domains[0], self.date_epoch, self.port)`
			`crawlers.create_domain_metadata(self.domain_type, self.domains[0], self.port, self.full_date, self.date_month)`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00
			`if 'cookies' in response.data:`
			`all_cookies = response.data['cookies']`
fix: [Crawler] typo 2019-02-12 14:51:19 +00:00			`else:`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`all_cookies = []`

chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`# SCREENSHOT`
fix: [crawler] option to disable screenshots and har 2020-06-04 14:05:32 +00:00			`if 'png' in response.data and self.png:`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00			`sha256_string = Screenshot.save_crawled_screeshot(response.data['png'], 5000000, f_save=self.requested_mode)`
			`if sha256_string:`
			`Screenshot.save_item_relationship(sha256_string, item_id)`
			`Screenshot.save_domain_relationship(sha256_string, self.domains[0])`
			`# HAR`
fix: [crawler] option to disable screenshots and har 2020-06-04 14:05:32 +00:00			`if 'har' in response.data and self.har:`
chg: [crawler - cookies] add/show/select cookies 2020-03-24 16:15:43 +00:00			`crawlers.save_har(self.har_dir, item_id, response.data['har'])`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00
			`le = LinkExtractor(allow_domains=self.domains, unique=True)`
			`for link in le.extract_links(response):`
			`l_cookies = self.build_request_arg(all_cookies)`
			`yield SplashRequest(`
			`link.url,`
			`self.parse,`
			`errback=self.errback_catcher,`
			`endpoint='execute',`
fix: [crawler] error catcher 2020-04-01 12:58:27 +00:00			`meta={'father': item_id, 'current_url': link.url},`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`args=l_cookies`
			`)`
chg: [Crawler] catch server response 2018-09-17 13:35:06 +00:00
chg: [Showpaste] add screenshot + improve onion db 2018-08-16 15:24:39 +00:00			`def errback_catcher(self, failure):`
			`# catch all errback failures,`
			`self.logger.error(repr(failure))`

fix: [Crawler] Restart Splash on failure, limit unbound in memory cache (maxrss) 2019-01-04 14:51:08 +00:00			`if failure.check(ResponseNeverReceived):`
fix: [crawler] fix ResponseNeverReceived hanlder, check if splash restarted 2020-09-14 15:03:36 +00:00			`## DEBUG ##`
			`self.logger.error(failure.request)`
			`if failure.value.response:`
			`self.logger.error(failure.value.response)`
			`## ----- ##`

			`# Extract request metadata`
			`url = failure.request.meta['current_url']`
			`father = failure.request.meta['father']`
			`l_cookies = self.build_request_arg(failure.request.meta['splash']['args']['cookies'])`

			`# Check if Splash restarted`
			`if not crawlers.is_splash_reachable(self.splash_url):`
fix: [crawler] fix ResponseNeverReceived retry time 2020-09-14 15:13:12 +00:00			`self.logger.error('Splash, ResponseNeverReceived for %s, retry in 30s ...', url)`
			`time.sleep(30)`
fix: [crawler] fix ResponseNeverReceived hanlder, check if splash restarted 2020-09-14 15:03:36 +00:00
fix: [Crawler] Restart Splash on failure, limit unbound in memory cache (maxrss) 2019-01-04 14:51:08 +00:00			`yield SplashRequest(`
			`url,`
			`self.parse,`
			`errback=self.errback_catcher,`
chg: [Splash Crawler] use cookies to bypass login 2020-03-09 16:02:18 +00:00			`endpoint='execute',`
fix: [crawler] error catcher 2020-04-01 12:58:27 +00:00			`meta={'father': father, 'current_url': url},`
fix: [crawler] fix ResponseNeverReceived hanlder, check if splash restarted 2020-09-14 15:03:36 +00:00			`args=l_cookies`
fix: [Crawler] Restart Splash on failure, limit unbound in memory cache (maxrss) 2019-01-04 14:51:08 +00:00			`)`

			`else:`
fix: [crawler] fix ResponseNeverReceived hanlder, check if splash restarted 2020-09-14 15:03:36 +00:00			`self.logger.error(failure.type)`
			`self.logger.error(failure.getErrorMessage())`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
			`def save_crawled_item(self, item_id, item_content):`
chg: [crawler - cookies] add/show/select cookies 2020-03-24 16:15:43 +00:00			`gzip64encoded = crawlers.save_crawled_item(item_id, item_content)`
chg: [crawler] bypass login: use cookie provided by user and accept cookie from server + refractor 2020-03-20 15:15:25 +00:00
			`# Send item to queue`
			`# send paste to Global`
			`relay_message = "{0} {1}".format(item_id, gzip64encoded)`
			`self.p.populate_set_out(relay_message, 'Mixer')`

			`# increase nb of paste by feeder name`
			`self.r_serv_log_submit.hincrby("mixer_cache:list_feeder", "crawler", 1)`

			`# tag crawled paste`
			`msg = 'infoleak:submission="crawler";{}'.format(item_id)`
			`self.p.populate_set_out(msg, 'Tags')`