ail-framework/bin/torcrawler/I2pSplashCrawler.py

#!/usr/bin/env python3
# -*-coding:UTF-8 -*

import os
import sys
import redis
import json
import time

import requests
from bs4 import BeautifulSoup

from hashlib import sha256

from twisted.web._newclient import ResponseNeverReceived

from scrapy import Spider
from scrapy.linkextractors import LinkExtractor
from scrapy.crawler import CrawlerProcess, Crawler

from scrapy_splash import SplashRequest

sys.path.append(os.environ['AIL_BIN'])
from Helper import Process

sys.path.append(os.path.join(os.environ['AIL_BIN'], 'lib'))
import ConfigLoader
import Screenshot
import crawlers

script_cookie = """
function main(splash, args)
    -- Default values
    splash.js_enabled = true
    splash.private_mode_enabled = true
    splash.images_enabled = true
    splash.webgl_enabled = true
    splash.media_source_enabled = true

    -- Force enable things
    splash.plugins_enabled = true
    splash.request_body_enabled = true
    splash.response_body_enabled = true

    splash.indexeddb_enabled = true
    splash.html5_media_enabled = true
    splash.http2_enabled = true

    -- User Agent
    splash:set_user_agent(args.user_agent)

    -- User defined
    splash.resource_timeout = args.resource_timeout
    splash.timeout = args.timeout

    -- Allow to pass cookies
    splash:init_cookies(args.cookies)

    -- Run
    ok, reason = splash:go{args.url}
    if not ok and not reason:find("http") then
        return {
            error = reason,
            last_url = splash:url()
        }
    end
    if reason == "http504" then
        splash:set_result_status_code(504)
        return ''
    end

    splash:wait{args.wait}
    -- Page instrumentation
    -- splash.scroll_position = {y=1000}
    -- splash:wait{args.wait}
    -- Response
    return {
        har = splash:har(),
        html = splash:html(),
        png = splash:png{render_all=true},
        cookies = splash:get_cookies(),
        last_url = splash:url(),
    }
end
"""

class I2pSplashCrawler():

    def __init__(self, splash_url, crawler_options):
        self.process = CrawlerProcess({'LOG_ENABLED': True})
        self.crawler = Crawler(self.I2pSplashSpider, {
            'USER_AGENT': crawler_options['user_agent'], # /!\ overwritten by lua script
            'SPLASH_URL': f"{splash_url}/render.html",
            'ROBOTSTXT_OBEY': False,
            'DOWNLOADER_MIDDLEWARES': {'scrapy_splash.SplashCookiesMiddleware': 723,
                                       'scrapy_splash.SplashMiddleware': 725,
                                       'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
                                       'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
                                       },
            'SPIDER_MIDDLEWARES': {'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,},
            'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',
            'HTTPERROR_ALLOW_ALL': True,
            'RETRY_TIMES': 2,
            'CLOSESPIDER_PAGECOUNT': crawler_options['closespider_pagecount'],
            'DEPTH_LIMIT': crawler_options['depth_limit'],
            'SPLASH_COOKIES_DEBUG': False
            })

    def crawl(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item):
        i2p = self.I2pSplashSpider(splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item)
        i2p.notbob(url, self.process, self.crawler)
    

    class I2pSplashSpider(Spider):
        name = 'I2pSplashSpider'

        def __init__(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item, *args, **kwargs):
            self.splash_url = splash_url
            self.domain_type = type
            self.requested_mode = requested_mode
            self.original_item = original_item
            self.root_key = None
            self.start_urls = url
            self.domains = [domain]
            self.port = str(port)
            date_str = '{}/{}/{}'.format(date['date_day'][0:4], date['date_day'][4:6], date['date_day'][6:8])
            self.full_date = date['date_day']
            self.date_month = date['date_month']
            self.date_epoch = int(date['epoch'])
            self.crawler_options = crawler_options
            self.date = date

            self.user_agent = crawler_options['user_agent']
            self.png = crawler_options['png']
            self.har = crawler_options['har']
            self.cookies = cookies

            config_section = 'Crawler'
            self.p = Process(config_section)
            self.item_dir = os.path.join(self.p.config.get("Directories", "crawled"), date_str )

            config_loader = ConfigLoader.ConfigLoader()
            self.har_dir = os.path.join(config_loader.get_files_directory('har') , date_str )
            config_loader = None

            self.r_serv_log_submit = redis.StrictRedis(
                host=self.p.config.get("Redis_Log_submit", "host"),
                port=self.p.config.getint("Redis_Log_submit", "port"),
                db=self.p.config.getint("Redis_Log_submit", "db"),
                decode_responses=True)

            self.root_key = None


        def build_request_arg(self, cookies):
            return {'wait': 10,
                    'resource_timeout': 30, # /!\ Weird behaviour if timeout < resource_timeout /!\
                    'timeout': 90,
                    'user_agent': self.user_agent,
                    'cookies': cookies,
                    'lua_source': script_cookie
                }

        def start_requests(self):
            url = self.process_url(self.start_urls)
            url = f"http://{url}"
            print(f"request url: {url}")
            l_cookies = self.build_request_arg(self.cookies)
            yield SplashRequest(
                url,
                self.parse,
                errback=self.errback_catcher,
                endpoint='execute',
                meta={'father': self.original_item, 'current_url': url},
                args=l_cookies
            )
            

        # # TODO: remove duplicate and anchor
        def parse(self,response):
            if response.status == 504:
                # no response
                pass

            # LUA ERROR # # TODO: logs errors
            elif 'error' in response.data:
                if(response.data['error'] == 'network99'):
                    ## splash restart ##
                    error_retry = response.meta.get('error_retry', 0)
                    if error_retry < 3:
                        error_retry += 1
                        url = response.data['last_url']
                        father = response.meta['father']

                        self.logger.error('Splash, ResponseNeverReceived for %s, retry in 10s ...', url)
                        time.sleep(10)
                        if 'cookies' in response.data:
                            all_cookies = response.data['cookies'] # # TODO:  use initial cookie ?????
                        else:
                            all_cookies = []
                        l_cookies = self.build_request_arg(all_cookies)
                        yield SplashRequest(
                            url,
                            self.parse,
                            errback=self.errback_catcher,
                            endpoint='execute',
                            dont_filter=True,
                            meta={'father': father, 'current_url': url, 'error_retry': error_retry},
                            args=l_cookies
                        )
                    else:
                        if self.requested_mode == 'test':
                            crawlers.save_test_ail_crawlers_result(False, 'Connection to proxy refused')
                        print('Connection to proxy refused')
                elif response.data['error'] == 'network3':
                    if self.requested_mode == 'test':
                        crawlers.save_test_ail_crawlers_result(False, 'HostNotFoundError: the remote host name was not found (invalid hostname)')
                    print('HostNotFoundError: the remote host name was not found (invalid hostname)')
                else:
                    if self.requested_mode == 'test':
                        crawlers.save_test_ail_crawlers_result(False, response.data['error'])
                    print(response.data['error'])

            elif response.status != 200:
                print('other response: {}'.format(response.status))
                # detect connection to proxy refused
                error_log = (json.loads(response.body.decode()))
                print(error_log)
            else:
                ## TEST MODE ##
                if self.requested_mode == 'test':
                    if 'It works!' in response.data['html']:
                        crawlers.save_test_ail_crawlers_result(True, 'It works!')
                    else:
                        print('TEST ERROR')
                        crawlers.save_test_ail_crawlers_result(False, 'TEST ERROR')
                    return
                ## -- ##

                item_id = crawlers.create_item_id(self.item_dir, self.domains[0])
                self.save_crawled_item(item_id, response.data['html'])
                crawlers.create_item_metadata(item_id, self.domains[0], response.data['last_url'], self.port, response.meta['father'])

                if self.root_key is None:
                    self.root_key = item_id
                    crawlers.add_domain_root_item(item_id, self.domain_type, self.domains[0], self.date_epoch, self.port)
                    crawlers.create_domain_metadata(self.domain_type, self.domains[0], self.port, self.full_date, self.date_month)

                if 'cookies' in response.data:
                    all_cookies = response.data['cookies']
                else:
                    all_cookies = []

                # SCREENSHOT
                if 'png' in response.data and self.png:
                    sha256_string = Screenshot.save_crawled_screeshot(response.data['png'], 5000000, f_save=self.requested_mode)
                    if sha256_string:
                        Screenshot.save_item_relationship(sha256_string, item_id)
                        Screenshot.save_domain_relationship(sha256_string, self.domains[0])
                # HAR
                if 'har' in response.data and self.har:
                    crawlers.save_har(self.har_dir, item_id, response.data['har'])

                le = LinkExtractor(allow_domains=self.domains, unique=True)
                for link in le.extract_links(response):
                    l_cookies = self.build_request_arg(all_cookies)
                    yield SplashRequest(
                        link.url,
                        self.parse,
                        errback=self.errback_catcher,
                        endpoint='execute',
                        meta={'father': item_id, 'current_url': link.url},
                        args=l_cookies
                    )

        def errback_catcher(self, failure):
            # catch all errback failures,
            self.logger.error(repr(failure))

            if failure.check(ResponseNeverReceived):
                ## DEBUG ##
                self.logger.error(failure.request)
                if failure.value.response:
                    self.logger.error(failure.value.response)
                ## ----- ##

                # Extract request metadata
                url = failure.request.meta['current_url']
                father = failure.request.meta['father']
                l_cookies = self.build_request_arg(failure.request.meta['splash']['args']['cookies'])

                # Check if Splash restarted
                if not crawlers.is_splash_reachable(self.splash_url):
                    self.logger.error('Splash, ResponseNeverReceived for %s, retry in 30s ...', url)
                    time.sleep(30)

                yield SplashRequest(
                    url,
                    self.parse,
                    errback=self.errback_catcher,
                    endpoint='execute',
                    meta={'father': father, 'current_url': url},
                    args=l_cookies
                )

            else:
                self.logger.error(failure.type)
                self.logger.error(failure.getErrorMessage())

        def save_crawled_item(self, item_id, item_content):
            gzip64encoded = crawlers.save_crawled_item(item_id, item_content)

            # Send item to queue
            # send paste to Global
            relay_message = "{0} {1}".format(item_id, gzip64encoded)
            self.p.populate_set_out(relay_message, 'Mixer')

            # increase nb of paste by feeder name
            self.r_serv_log_submit.hincrby("mixer_cache:list_feeder", "crawler", 1)

            # tag crawled paste
            msg = 'infoleak:submission="crawler";{}'.format(item_id)
            self.p.populate_set_out(msg, 'Tags')


        def notbob(self, website, process, crawler, reload=False):
            print(f"Splash_url: {self.splash_url}")
            website = self.process_url(website)
            print("\t" + website)
            if reload:
                print("reload Notbob")
                url = f"http://{website}"
            else:
                print("Notbob")
                url = f"http://notbob.i2p/cgi-bin/jump.cgi?q={website}"
            try:
                r = requests.get(f"{self.splash_url}/render.html", params={'url': url, 'wait': 2})
            except Exception as e:
                print("notbob error")
                print(e)

            soup = BeautifulSoup(r.content, "html.parser")
            html = soup.find_all(id="jump", limit=1)
            dead = soup.find_all(id="dead", limit=1)

            # Find
            if html:
                #Jump
                meta = soup.find_all("meta", limit=1)

                urlJump = meta[0].get("content").split("url=")[1]
                urlJump = urlJump[1:-1]
                try:
                    r = requests.get(f"{self.splash_url}/render.html", params={'url': urlJump, 'wait': 2})
                except Exception as e:
                    print("notbob error")
                    print(e)

                soup2 = BeautifulSoup(r.content, "html.parser")
                title = soup2.find_all('title', limit=1)
                if title:
                    t = str(title[0])
                    t = t[7:]
                    t = t[:-8]

                    if t == "Information: New Host Name":
                        self.notbob(website, process, crawler, reload=True)
                    elif t == "Website Unreachable":
                        print("Not find with Notbob")
                        self.i2pjump(website, process, crawler)
                    elif t == "Warning: Destination Key Conflict":
                        link = soup2.find_all("a", href=True)
                        for l in link:
                            if l.get_text() == f'Destination for {website} in address book':
                                self.regular_request(l["href"], process, crawler)
                    else:
                        print(t)
                        print("notbob")
                        try:
                            process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)
                            process.start()
                        except Exception as e:
                            print("notbob error process")
                            print(e)

                else:
                    print("Not find with Notbob")
                    self.i2pjump(website, process, crawler)
            # Not find, try an other jump server
            else:
                if not dead:
                    title = soup.find_all('title', limit=1)
                    if title:
                        t = str(title[0])
                        t = t[7:]
                        t = t[:-8]

                        if t == "Information: New Host Name":
                            self.notbob(website, process, crawler, reload=True)
                        elif t == "Website Unreachable":
                            print("Not find with Notbob")
                            self.i2pjump(website, process, crawler)
                        elif t == "Warning: Destination Key Conflict":
                            link = soup.find_all("a", href=True)
                            for l in link:
                                if l.get_text() == f'Destination for {website} in address book':
                                    self.regular_request(l["href"], process, crawler)
                        else:
                            print(t)
                            print("notbob2")
                            try:
                                process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)
                                process.start()
                            except Exception as e:
                                print("notbob error process")
                                print(e)
                    else:
                        print("Not find with Notbob")
                        self.i2pjump(website, process, crawler)
                else:
                    print("Not find with Notbob")
                    self.i2pjump(website, process, crawler)


        def i2pjump(self, website, process, crawler, reload=False):
            print(website)
            if reload:
                print("reload i2pjump")
                url = f"http://{website}"
            else:
                print("i2pjump")
                url = f"http://i2pjump.i2p/jump/{website}"
            try:
                r = requests.get(f"{self.splash_url}/render.html", params={'url': url, 'wait': 2})
            except Exception as e:
                print("i2pjump error")
                print(e)

            soup = BeautifulSoup(r.content, "html.parser")

            title = soup.find_all('title', limit=1)
            if title:
                t = str(title[0])
                t = t[7:]
                t = t[:-8]
                if t == "Information: New Host Name":
                    self.i2pjump(website, process, crawler, reload=True)
                elif t == "Website Unreachable":
                    print("Not find with i2pjump")
                    self.statsi2p(website, process, crawler)
                elif t == "Warning: Destination Key Conflict":
                    link = soup.find_all("a", href=True)
                    for l in link:
                        if l.get_text() == f'Destination for {website} in address book':
                            self.regular_request(l["href"], process, crawler)
                else:
                    print(t)
                    print("i2pjump")
                    try:
                        process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)
                        process.start()
                    except Exception as e:
                        print("i2pjump error process")
                        print(e)
            else:
                if "was not found in index" in r.text:
                    print("Not find with i2pjump")
                    self.statsi2p(website, process, crawler)
                else:
                    print("don't know the error i2pjump")
                    self.statsi2p(website, process, crawler)


        def statsi2p(self, website, process, crawler, reload=False):
            if reload:
                print("reload statsi2p")
                url = f"http://{website}"
            else:
                print("statsi2p")
                url = f"http://stats.i2p/cgi-bin/jump.cgi?a={website}"
            try:
                r = requests.get(f"{self.splash_url}/render.html", params={'url': url, 'wait': 2})
            except Exception as e:
                print("stati2p error")
                print(e)

            soup = BeautifulSoup(r.content, "html.parser")

            if not reload:
                meta = soup.find_all("meta", limit=1)
                # Success
                if meta:
                    urlJump = meta[0].get("content").split("url=")[1]
                    urlJump = urlJump[0:-1]

                    try:
                        r = requests.get(f"{self.splash_url}/render.html", params={'url': urlJump, 'wait': 2})
                    except Exception as e:
                        print("stati2p error")
                        print(e)
                    soup2 = BeautifulSoup(r.content, "html.parser")
                    title = soup2.find_all('title', limit=1)

                    if title:
                        t = str(title[0])
                        t = t[7:]
                        t = t[:-8]

                        if t == "Information: New Host Name":
                            self.statsi2p(website, process, crawler, reload=True)
                        elif t == "Website Unreachable":
                            print("Not find with stati2p")
                            self.regular_request(website, process, crawler)
                        elif t == "Warning: Destination Key Conflict":
                            link = soup2.find_all("a", href=True)
                            for l in link:
                                if l.get_text() == f'Destination for {website} in address book':
                                    self.regular_request(l["href"], process, crawler)
                        else:
                            print(t)
                            print("stati2p")
                            try:
                                process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)
                                process.start()
                            except Exception as e:
                                print("stati2p error process")
                                print(e)
                    else:
                        print("Not find with stati2p")
                        self.regular_request(website, process, crawler)
                else:
                    print("Not find with stati2p")
                    self.regular_request(website, process, crawler)
            else:
                title = soup.find_all('title', limit=1)
                if title:
                    t = str(title[0])
                    t = t[7:]
                    t = t[:-8]

                    if t == "Information: New Host Name":
                        self.statsi2p(website, process, crawler, reload=True)
                    elif t == "Website Unreachable":
                        print("Not find with stati2p")
                        self.regular_request(website, process, crawler)
                    elif t == "Warning: Destination Key Conflict":
                        link = soup.find_all("a", href=True)
                        for l in link:
                            if l.get_text() == f'Destination for {website} in address book':
                                self.regular_request(l["href"], process, crawler)
                    else:
                        print(t)
                        print("stati2p")
                        try:
                            process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)
                            process.start()
                        except Exception as e:
                            print("stati2p error process")
                            print(e)
                else:
                    print("Not find with stati2p")
                    self.regular_request(website, process, crawler)


        def regular_request(self, website, process, crawler, reload=False):
            print(website)
            if reload:
                print("reload regular_request")
            else:
                print("regular_request")

            try:
                r = requests.get(f"{self.splash_url}/render.html", params={'url': website, 'wait': 2})
            except Exception as e:
                print("regular request error")
                print(e)

            soup = BeautifulSoup(r.content, "html.parser")

            title = soup.find_all('title', limit=1)
            if title:
                t = str(title[0])
                t = t[7:]
                t = t[:-8]
                if t == "Information: New Host Name":
                    self.regular_request(website, process, crawler, reload=True)
                elif t == "Website Unreachable":
                    print("Not find with regular request")
                    print("Exit...\n\n")
                    crawlers.save_test_ail_crawlers_result(False, 'HostNotFoundError: the remote host name was not found (invalid hostname)')
                else:
                    print(t)
                    print("regular")
                    try:
                        process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)
                        process.start()
                    except Exception as e:
                        print("regular request error process")
                        print(e)
            else:
                print("Not find with regular request")
                print("Exit...\n\n")
                crawlers.save_test_ail_crawlers_result(False, 'HostNotFoundError: the remote host name was not found (invalid hostname)')

        def process_url(self, url):
            if "http://" == url[0:7]:
                url = url[7:]
            if url[-1] == "/":
                url = url[:-1]
            return url
add: [crawler] i2p splash crawler 2022-06-30 15:33:00 +00:00			`#!/usr/bin/env python3`
			`# --coding:UTF-8 -`

			`import os`
			`import sys`
			`import redis`
			`import json`
			`import time`

			`import requests`
			`from bs4 import BeautifulSoup`

			`from hashlib import sha256`

			`from twisted.web._newclient import ResponseNeverReceived`

			`from scrapy import Spider`
			`from scrapy.linkextractors import LinkExtractor`
			`from scrapy.crawler import CrawlerProcess, Crawler`

			`from scrapy_splash import SplashRequest`

			`sys.path.append(os.environ['AIL_BIN'])`
			`from Helper import Process`

			`sys.path.append(os.path.join(os.environ['AIL_BIN'], 'lib'))`
			`import ConfigLoader`
			`import Screenshot`
			`import crawlers`

			`script_cookie = """`
			`function main(splash, args)`
			`-- Default values`
			`splash.js_enabled = true`
			`splash.private_mode_enabled = true`
			`splash.images_enabled = true`
			`splash.webgl_enabled = true`
			`splash.media_source_enabled = true`

			`-- Force enable things`
			`splash.plugins_enabled = true`
			`splash.request_body_enabled = true`
			`splash.response_body_enabled = true`

			`splash.indexeddb_enabled = true`
			`splash.html5_media_enabled = true`
			`splash.http2_enabled = true`

			`-- User Agent`
			`splash:set_user_agent(args.user_agent)`

			`-- User defined`
			`splash.resource_timeout = args.resource_timeout`
			`splash.timeout = args.timeout`

			`-- Allow to pass cookies`
			`splash:init_cookies(args.cookies)`

			`-- Run`
			`ok, reason = splash:go{args.url}`
			`if not ok and not reason:find("http") then`
			`return {`
			`error = reason,`
			`last_url = splash:url()`
			`}`
			`end`
			`if reason == "http504" then`
			`splash:set_result_status_code(504)`
			`return ''`
			`end`

			`splash:wait{args.wait}`
			`-- Page instrumentation`
			`-- splash.scroll_position = {y=1000}`
			`-- splash:wait{args.wait}`
			`-- Response`
			`return {`
			`har = splash:har(),`
			`html = splash:html(),`
			`png = splash:png{render_all=true},`
			`cookies = splash:get_cookies(),`
			`last_url = splash:url(),`
			`}`
			`end`
			`"""`

			`class I2pSplashCrawler():`

			`def __init__(self, splash_url, crawler_options):`
			`self.process = CrawlerProcess({'LOG_ENABLED': True})`
			`self.crawler = Crawler(self.I2pSplashSpider, {`
			`'USER_AGENT': crawler_options['user_agent'], # /!\ overwritten by lua script`
			`'SPLASH_URL': f"{splash_url}/render.html",`
			`'ROBOTSTXT_OBEY': False,`
			`'DOWNLOADER_MIDDLEWARES': {'scrapy_splash.SplashCookiesMiddleware': 723,`
			`'scrapy_splash.SplashMiddleware': 725,`
			`'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,`
			`'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,`
			`},`
			`'SPIDER_MIDDLEWARES': {'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,},`
			`'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',`
			`'HTTPERROR_ALLOW_ALL': True,`
			`'RETRY_TIMES': 2,`
			`'CLOSESPIDER_PAGECOUNT': crawler_options['closespider_pagecount'],`
			`'DEPTH_LIMIT': crawler_options['depth_limit'],`
			`'SPLASH_COOKIES_DEBUG': False`
			`})`

			`def crawl(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item):`
			`i2p = self.I2pSplashSpider(splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item)`
			`i2p.notbob(url, self.process, self.crawler)`


			`class I2pSplashSpider(Spider):`
			`name = 'I2pSplashSpider'`

			`def __init__(self, splash_url, type, crawler_options, date, requested_mode, url, domain, port, cookies, original_item, args, *kwargs):`
			`self.splash_url = splash_url`
			`self.domain_type = type`
			`self.requested_mode = requested_mode`
			`self.original_item = original_item`
			`self.root_key = None`
			`self.start_urls = url`
			`self.domains = [domain]`
			`self.port = str(port)`
			`date_str = '{}/{}/{}'.format(date['date_day'][0:4], date['date_day'][4:6], date['date_day'][6:8])`
			`self.full_date = date['date_day']`
			`self.date_month = date['date_month']`
			`self.date_epoch = int(date['epoch'])`
			`self.crawler_options = crawler_options`
			`self.date = date`

			`self.user_agent = crawler_options['user_agent']`
			`self.png = crawler_options['png']`
			`self.har = crawler_options['har']`
			`self.cookies = cookies`

			`config_section = 'Crawler'`
			`self.p = Process(config_section)`
			`self.item_dir = os.path.join(self.p.config.get("Directories", "crawled"), date_str )`

			`config_loader = ConfigLoader.ConfigLoader()`
			`self.har_dir = os.path.join(config_loader.get_files_directory('har') , date_str )`
			`config_loader = None`

			`self.r_serv_log_submit = redis.StrictRedis(`
			`host=self.p.config.get("Redis_Log_submit", "host"),`
			`port=self.p.config.getint("Redis_Log_submit", "port"),`
			`db=self.p.config.getint("Redis_Log_submit", "db"),`
			`decode_responses=True)`

			`self.root_key = None`


			`def build_request_arg(self, cookies):`
			`return {'wait': 10,`
			`'resource_timeout': 30, # /!\ Weird behaviour if timeout < resource_timeout /!\`
			`'timeout': 90,`
			`'user_agent': self.user_agent,`
			`'cookies': cookies,`
			`'lua_source': script_cookie`
			`}`

			`def start_requests(self):`
			`url = self.process_url(self.start_urls)`
			`url = f"http://{url}"`
			`print(f"request url: {url}")`
			`l_cookies = self.build_request_arg(self.cookies)`
			`yield SplashRequest(`
			`url,`
			`self.parse,`
			`errback=self.errback_catcher,`
			`endpoint='execute',`
			`meta={'father': self.original_item, 'current_url': url},`
			`args=l_cookies`
			`)`


			`# # TODO: remove duplicate and anchor`
			`def parse(self,response):`
			`if response.status == 504:`
			`# no response`
			`pass`

			`# LUA ERROR # # TODO: logs errors`
			`elif 'error' in response.data:`
			`if(response.data['error'] == 'network99'):`
			`## splash restart ##`
			`error_retry = response.meta.get('error_retry', 0)`
			`if error_retry < 3:`
			`error_retry += 1`
			`url = response.data['last_url']`
			`father = response.meta['father']`

			`self.logger.error('Splash, ResponseNeverReceived for %s, retry in 10s ...', url)`
			`time.sleep(10)`
			`if 'cookies' in response.data:`
			`all_cookies = response.data['cookies'] # # TODO: use initial cookie ?????`
			`else:`
			`all_cookies = []`
			`l_cookies = self.build_request_arg(all_cookies)`
			`yield SplashRequest(`
			`url,`
			`self.parse,`
			`errback=self.errback_catcher,`
			`endpoint='execute',`
			`dont_filter=True,`
			`meta={'father': father, 'current_url': url, 'error_retry': error_retry},`
			`args=l_cookies`
			`)`
			`else:`
			`if self.requested_mode == 'test':`
			`crawlers.save_test_ail_crawlers_result(False, 'Connection to proxy refused')`
			`print('Connection to proxy refused')`
			`elif response.data['error'] == 'network3':`
			`if self.requested_mode == 'test':`
			`crawlers.save_test_ail_crawlers_result(False, 'HostNotFoundError: the remote host name was not found (invalid hostname)')`
			`print('HostNotFoundError: the remote host name was not found (invalid hostname)')`
			`else:`
			`if self.requested_mode == 'test':`
			`crawlers.save_test_ail_crawlers_result(False, response.data['error'])`
			`print(response.data['error'])`

			`elif response.status != 200:`
			`print('other response: {}'.format(response.status))`
			`# detect connection to proxy refused`
			`error_log = (json.loads(response.body.decode()))`
			`print(error_log)`
			`else:`
			`## TEST MODE ##`
			`if self.requested_mode == 'test':`
			`if 'It works!' in response.data['html']:`
			`crawlers.save_test_ail_crawlers_result(True, 'It works!')`
			`else:`
			`print('TEST ERROR')`
			`crawlers.save_test_ail_crawlers_result(False, 'TEST ERROR')`
			`return`
			`## -- ##`

			`item_id = crawlers.create_item_id(self.item_dir, self.domains[0])`
			`self.save_crawled_item(item_id, response.data['html'])`
			`crawlers.create_item_metadata(item_id, self.domains[0], response.data['last_url'], self.port, response.meta['father'])`

			`if self.root_key is None:`
			`self.root_key = item_id`
			`crawlers.add_domain_root_item(item_id, self.domain_type, self.domains[0], self.date_epoch, self.port)`
			`crawlers.create_domain_metadata(self.domain_type, self.domains[0], self.port, self.full_date, self.date_month)`

			`if 'cookies' in response.data:`
			`all_cookies = response.data['cookies']`
			`else:`
			`all_cookies = []`

			`# SCREENSHOT`
			`if 'png' in response.data and self.png:`
			`sha256_string = Screenshot.save_crawled_screeshot(response.data['png'], 5000000, f_save=self.requested_mode)`
			`if sha256_string:`
			`Screenshot.save_item_relationship(sha256_string, item_id)`
			`Screenshot.save_domain_relationship(sha256_string, self.domains[0])`
			`# HAR`
			`if 'har' in response.data and self.har:`
			`crawlers.save_har(self.har_dir, item_id, response.data['har'])`

			`le = LinkExtractor(allow_domains=self.domains, unique=True)`
			`for link in le.extract_links(response):`
			`l_cookies = self.build_request_arg(all_cookies)`
			`yield SplashRequest(`
			`link.url,`
			`self.parse,`
			`errback=self.errback_catcher,`
			`endpoint='execute',`
			`meta={'father': item_id, 'current_url': link.url},`
			`args=l_cookies`
			`)`

			`def errback_catcher(self, failure):`
			`# catch all errback failures,`
			`self.logger.error(repr(failure))`

			`if failure.check(ResponseNeverReceived):`
			`## DEBUG ##`
			`self.logger.error(failure.request)`
			`if failure.value.response:`
			`self.logger.error(failure.value.response)`
			`## ----- ##`

			`# Extract request metadata`
			`url = failure.request.meta['current_url']`
			`father = failure.request.meta['father']`
			`l_cookies = self.build_request_arg(failure.request.meta['splash']['args']['cookies'])`

			`# Check if Splash restarted`
			`if not crawlers.is_splash_reachable(self.splash_url):`
			`self.logger.error('Splash, ResponseNeverReceived for %s, retry in 30s ...', url)`
			`time.sleep(30)`

			`yield SplashRequest(`
			`url,`
			`self.parse,`
			`errback=self.errback_catcher,`
			`endpoint='execute',`
			`meta={'father': father, 'current_url': url},`
			`args=l_cookies`
			`)`

			`else:`
			`self.logger.error(failure.type)`
			`self.logger.error(failure.getErrorMessage())`

			`def save_crawled_item(self, item_id, item_content):`
			`gzip64encoded = crawlers.save_crawled_item(item_id, item_content)`

			`# Send item to queue`
			`# send paste to Global`
			`relay_message = "{0} {1}".format(item_id, gzip64encoded)`
			`self.p.populate_set_out(relay_message, 'Mixer')`

			`# increase nb of paste by feeder name`
			`self.r_serv_log_submit.hincrby("mixer_cache:list_feeder", "crawler", 1)`

			`# tag crawled paste`
			`msg = 'infoleak:submission="crawler";{}'.format(item_id)`
			`self.p.populate_set_out(msg, 'Tags')`


			`def notbob(self, website, process, crawler, reload=False):`
			`print(f"Splash_url: {self.splash_url}")`
			`website = self.process_url(website)`
			`print("\t" + website)`
			`if reload:`
			`print("reload Notbob")`
			`url = f"http://{website}"`
			`else:`
			`print("Notbob")`
			`url = f"http://notbob.i2p/cgi-bin/jump.cgi?q={website}"`
			`try:`
			`r = requests.get(f"{self.splash_url}/render.html", params={'url': url, 'wait': 2})`
			`except Exception as e:`
			`print("notbob error")`
			`print(e)`

			`soup = BeautifulSoup(r.content, "html.parser")`
			`html = soup.find_all(id="jump", limit=1)`
			`dead = soup.find_all(id="dead", limit=1)`

			`# Find`
			`if html:`
			`#Jump`
			`meta = soup.find_all("meta", limit=1)`

			`urlJump = meta[0].get("content").split("url=")[1]`
			`urlJump = urlJump[1:-1]`
			`try:`
			`r = requests.get(f"{self.splash_url}/render.html", params={'url': urlJump, 'wait': 2})`
			`except Exception as e:`
			`print("notbob error")`
			`print(e)`

			`soup2 = BeautifulSoup(r.content, "html.parser")`
			`title = soup2.find_all('title', limit=1)`
			`if title:`
			`t = str(title[0])`
			`t = t[7:]`
			`t = t[:-8]`

			`if t == "Information: New Host Name":`
			`self.notbob(website, process, crawler, reload=True)`
			`elif t == "Website Unreachable":`
			`print("Not find with Notbob")`
			`self.i2pjump(website, process, crawler)`
			`elif t == "Warning: Destination Key Conflict":`
			`link = soup2.find_all("a", href=True)`
			`for l in link:`
			`if l.get_text() == f'Destination for {website} in address book':`
			`self.regular_request(l["href"], process, crawler)`
			`else:`
			`print(t)`
			`print("notbob")`
			`try:`
			`process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)`
			`process.start()`
			`except Exception as e:`
			`print("notbob error process")`
			`print(e)`

			`else:`
			`print("Not find with Notbob")`
			`self.i2pjump(website, process, crawler)`
			`# Not find, try an other jump server`
			`else:`
			`if not dead:`
			`title = soup.find_all('title', limit=1)`
			`if title:`
			`t = str(title[0])`
			`t = t[7:]`
			`t = t[:-8]`

			`if t == "Information: New Host Name":`
			`self.notbob(website, process, crawler, reload=True)`
			`elif t == "Website Unreachable":`
			`print("Not find with Notbob")`
			`self.i2pjump(website, process, crawler)`
			`elif t == "Warning: Destination Key Conflict":`
			`link = soup.find_all("a", href=True)`
			`for l in link:`
			`if l.get_text() == f'Destination for {website} in address book':`
			`self.regular_request(l["href"], process, crawler)`
			`else:`
			`print(t)`
			`print("notbob2")`
			`try:`
			`process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)`
			`process.start()`
			`except Exception as e:`
			`print("notbob error process")`
			`print(e)`
			`else:`
			`print("Not find with Notbob")`
			`self.i2pjump(website, process, crawler)`
			`else:`
			`print("Not find with Notbob")`
			`self.i2pjump(website, process, crawler)`


			`def i2pjump(self, website, process, crawler, reload=False):`
			`print(website)`
			`if reload:`
			`print("reload i2pjump")`
			`url = f"http://{website}"`
			`else:`
			`print("i2pjump")`
			`url = f"http://i2pjump.i2p/jump/{website}"`
			`try:`
			`r = requests.get(f"{self.splash_url}/render.html", params={'url': url, 'wait': 2})`
			`except Exception as e:`
			`print("i2pjump error")`
			`print(e)`

			`soup = BeautifulSoup(r.content, "html.parser")`

			`title = soup.find_all('title', limit=1)`
			`if title:`
			`t = str(title[0])`
			`t = t[7:]`
			`t = t[:-8]`
			`if t == "Information: New Host Name":`
			`self.i2pjump(website, process, crawler, reload=True)`
			`elif t == "Website Unreachable":`
			`print("Not find with i2pjump")`
			`self.statsi2p(website, process, crawler)`
			`elif t == "Warning: Destination Key Conflict":`
			`link = soup.find_all("a", href=True)`
			`for l in link:`
			`if l.get_text() == f'Destination for {website} in address book':`
			`self.regular_request(l["href"], process, crawler)`
			`else:`
			`print(t)`
			`print("i2pjump")`
			`try:`
			`process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)`
			`process.start()`
			`except Exception as e:`
			`print("i2pjump error process")`
			`print(e)`
			`else:`
			`if "was not found in index" in r.text:`
			`print("Not find with i2pjump")`
			`self.statsi2p(website, process, crawler)`
			`else:`
			`print("don't know the error i2pjump")`
			`self.statsi2p(website, process, crawler)`


			`def statsi2p(self, website, process, crawler, reload=False):`
			`if reload:`
			`print("reload statsi2p")`
			`url = f"http://{website}"`
			`else:`
			`print("statsi2p")`
			`url = f"http://stats.i2p/cgi-bin/jump.cgi?a={website}"`
			`try:`
			`r = requests.get(f"{self.splash_url}/render.html", params={'url': url, 'wait': 2})`
			`except Exception as e:`
			`print("stati2p error")`
			`print(e)`

			`soup = BeautifulSoup(r.content, "html.parser")`

			`if not reload:`
			`meta = soup.find_all("meta", limit=1)`
			`# Success`
			`if meta:`
			`urlJump = meta[0].get("content").split("url=")[1]`
			`urlJump = urlJump[0:-1]`

			`try:`
			`r = requests.get(f"{self.splash_url}/render.html", params={'url': urlJump, 'wait': 2})`
			`except Exception as e:`
			`print("stati2p error")`
			`print(e)`
			`soup2 = BeautifulSoup(r.content, "html.parser")`
			`title = soup2.find_all('title', limit=1)`

			`if title:`
			`t = str(title[0])`
			`t = t[7:]`
			`t = t[:-8]`

			`if t == "Information: New Host Name":`
			`self.statsi2p(website, process, crawler, reload=True)`
			`elif t == "Website Unreachable":`
			`print("Not find with stati2p")`
			`self.regular_request(website, process, crawler)`
			`elif t == "Warning: Destination Key Conflict":`
			`link = soup2.find_all("a", href=True)`
			`for l in link:`
			`if l.get_text() == f'Destination for {website} in address book':`
			`self.regular_request(l["href"], process, crawler)`
			`else:`
			`print(t)`
			`print("stati2p")`
			`try:`
			`process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)`
			`process.start()`
			`except Exception as e:`
			`print("stati2p error process")`
			`print(e)`
			`else:`
			`print("Not find with stati2p")`
			`self.regular_request(website, process, crawler)`
			`else:`
			`print("Not find with stati2p")`
			`self.regular_request(website, process, crawler)`
			`else:`
			`title = soup.find_all('title', limit=1)`
			`if title:`
			`t = str(title[0])`
			`t = t[7:]`
			`t = t[:-8]`

			`if t == "Information: New Host Name":`
			`self.statsi2p(website, process, crawler, reload=True)`
			`elif t == "Website Unreachable":`
			`print("Not find with stati2p")`
			`self.regular_request(website, process, crawler)`
			`elif t == "Warning: Destination Key Conflict":`
			`link = soup.find_all("a", href=True)`
			`for l in link:`
			`if l.get_text() == f'Destination for {website} in address book':`
			`self.regular_request(l["href"], process, crawler)`
			`else:`
			`print(t)`
			`print("stati2p")`
			`try:`
			`process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)`
			`process.start()`
			`except Exception as e:`
			`print("stati2p error process")`
			`print(e)`
			`else:`
			`print("Not find with stati2p")`
			`self.regular_request(website, process, crawler)`


			`def regular_request(self, website, process, crawler, reload=False):`
			`print(website)`
			`if reload:`
			`print("reload regular_request")`
			`else:`
			`print("regular_request")`

			`try:`
			`r = requests.get(f"{self.splash_url}/render.html", params={'url': website, 'wait': 2})`
			`except Exception as e:`
			`print("regular request error")`
			`print(e)`

			`soup = BeautifulSoup(r.content, "html.parser")`

			`title = soup.find_all('title', limit=1)`
			`if title:`
			`t = str(title[0])`
			`t = t[7:]`
			`t = t[:-8]`
			`if t == "Information: New Host Name":`
			`self.regular_request(website, process, crawler, reload=True)`
			`elif t == "Website Unreachable":`
			`print("Not find with regular request")`
			`print("Exit...\n\n")`
			`crawlers.save_test_ail_crawlers_result(False, 'HostNotFoundError: the remote host name was not found (invalid hostname)')`
			`else:`
			`print(t)`
			`print("regular")`
			`try:`
			`process.crawl(crawler, splash_url=self.splash_url, type=self.domain_type, crawler_options=self.crawler_options, date=self.date, requested_mode=self.requested_mode, url=self.start_urls, domain=self.domains[0], port=self.port, cookies=self.cookies, original_item=self.original_item)`
			`process.start()`
			`except Exception as e:`
			`print("regular request error process")`
			`print(e)`
			`else:`
			`print("Not find with regular request")`
			`print("Exit...\n\n")`
			`crawlers.save_test_ail_crawlers_result(False, 'HostNotFoundError: the remote host name was not found (invalid hostname)')`

			`def process_url(self, url):`
			`if "http://" == url[0:7]:`
			`url = url[7:]`
			`if url[-1] == "/":`
			`url = url[:-1]`
			`return url`