iwojima Опубликовано 19 апреля, 2021 Жалоба Опубликовано 19 апреля, 2021 https://arxiv.org/abs/2012.05003 Публикация от декабря 2020 Исследование связанности tor и i2p. Есть датасет (https://gitlab.com/ciberseg-uah/interconection-between-darknets-dataset) включающий в себя 49249 доменов (i2p - 2687, tor - 46562) и 304673 связей между ними. Пишут что собирали датасет 2 года. Собирали используя открытые источники (Pastebin, Reddit), краулер от ahmia, генрацию доменных имен tor и модификацию tor релея с выставленным флагом hsdir. Пишут что покрыли ~61% тора, а кросс связи с i2p - так вообще до них никто не делал. Результирующий граф впечатляет. https://gitlab.com/ciberseg-uah/interconection-between-darknets-dataset/-/blob/master/tor+i2pGraph.png Rescor 1 Цитата
iwojima Опубликовано 5 мая, 2021 Автор Жалоба Опубликовано 5 мая, 2021 Доверяй, но проверяй... 44746 уникальных доменов onion 2го уровня в датасете насчитал ( awk -F"," '{print $1}' i2p_results.csv >1.txt;awk -F"," '{print $3}' i2p_results.csv>>1.txt;awk -F"," '{print $1}' tor_results.csv>>1.txt;awk -F"," '{print $3}' tor_results.csv>>1.txt;cat 1.txt|grep -v ".i2p"|awk -F"." '{print $(NF-1)}'|sort -u|wc -l), остальные 1,8к - это 3й уровень и выше. По датам - непонятно, в одном месте 2 года, в другом (график сравнения с metrics.torproject) - 2 месяца. По процентам - тоже непонятно: 61% процент это если только эти 2 месяца смотреть. Если смотреть метрики за больший промежуток (вниз/вверх) то там бардак, какието пики в 1,5-2 раза выше, "полочки" - https://metrics.torproject.org/hidserv-dir-onions-seen.html?start=2015-02-03&end=2021-05-04 Прочекал первую тысячу хостов (curl c timeout=5sec) - печаль, только 30 хостов отозвались, запустил с таймаутом 10 сек... Пока курлыкурлы - сдернул доступные ссылки с DeepLink (deeplinkdeatbml7.onion) и FreshOnions (freshonifyfe4rmuh6qwpsexfhdrww7wnt5qmkoertwxmcuvm4woo4ad.onion) - в сумме 14217 уникальных хостов получилось. То что у них написано 90+k хостов и 40+к хостов - у меня "в тупую" через page=N вытащить не получилось, только около 10к с каждого отдает, но список похоже более актуальный. Натравил и тут curl на первую 1000 хостов - визуально живых значительно больше, это не может не радовать. Часа через 3 можно будет статистику прикинуть, сравнить. Потом можно будет оставшиеся куски смержить, убрать дубликаты - и запустить курл уже на неделю :) ЗЫ: реквесты (кудаж без них) - какие каталоги/поисковики типа диплинка/фрешониона откуда можно хосты повыдергивать еще есть? тема про модификацию hsdir tor relay - тоже интересна, но инфа не особо ищется Rescor 1 Цитата
iwojima Опубликовано 6 мая, 2021 Автор Жалоба Опубликовано 6 мая, 2021 Итак: set1 (dataset arxiv.org) - 70 живых хостов из 1000 set2 (выборка deeplink+freshonions) - 457 живых из 1000 Уникальных живых хостов по обоим сетам - 476, т.е. сет1 принес только +19 хостов к сету2... Есть смысл сначала пробежать весь сет2, а только потом - оставшиеся уникальные хосты из сета1 (понимая что там ~90% воды) Цитата
iwojima Опубликовано 9 мая, 2021 Автор Жалоба Опубликовано 9 мая, 2021 Сделал одну иттерацию по Set2 : 6665 живых хоста из 14217 (~41%) (вытягивал корень сайта через curl --silent --proxy http://127.0.0.1:8118 --connect-timeout $timeout --max-time $timeout "http://$line") Вытащил файлы с уникальным хешем (find ./ -type f -exec sha1sum '{}' \+ | sort |uniq -c --check-chars 40 | cut -c 51-) - осталось 4604 файла. прогнал через grep по porn|pedo|market|bitcoin (find ./ -type f -exec egrep -l '(porn|pedo|market|bitcoin)' '{}' \+ | sort -u) - отсеялось 2392 хоста.(скорее всего шлак, смотреть в последнюю очередь) Из оставшихся 2212 файлов - 591 имеют размер меньше одного килобайта - их также посмотрю потом (там в массе своей заглушки или перенаправления на v3 сайты). Осталось - 1621 файл. Это уже можно смотреть на предмет интересного... ЗЫ:пока суть да дело -запустил вторую иттерацию по хостам которые отвлились по таймауту, вдруг повезет:) и чтото еще отзовется. ...другой вопрос - что со всем этим барахлом делать? Можно из того что есть вытащить все онион хосты и включить их в set2. Можно поискать все доступные directory onion хостов типа хидденвики или search по типу тогоже диплинка - дополнить ими set2. Потом - можно периодически пробегаться по найденым directory/search, вытаскивать дельту и отсматривать только ее... ...ну и да - тема с set1 она также осталась, но она в принципе о томже: расширении списка сайтов на посмотреть. Rescor 1 Цитата
iwojima Опубликовано 12 мая, 2021 Автор Жалоба Опубликовано 12 мая, 2021 Небольшой приквел (если так можно сказать) для этого трэда. Некотоое время назад поднял в торе вебсервер. С месяц следил за активностью на порту - полный ноль, ни одного запроса (кроме моих собственных ессно). Зная что для клирнета - это вообще ситуация фантастическая, там 80 порт сканируется каждую секунду, кем попало, начал освежать память как маршрутизация и адресация сервисов в торе устроена... Так появился топиккаст :) Сейчас я понимаю, что для более полного охвата - нужно было пожалуй через разные входные ноды ломиться, чтобы большее количество hsdir релеев о сервисе узнало - в потенциале это (при должном терпении) позволилоб узнать утекают ли базы сервисов hsdir релеев :) Но стоило только ссылку опубликовать, даже неявно, не в поисковик, а просто в тор аналоге pastebin паблик пост оставить (depastedihrn3jtw.onion) - мнгновенно пошли запросы от ботов. После этого - пробежался по дипвеб поисковикам, где была возможность, также добавил ссылку... понятно что количество запросов увеличилось, появилось даже явное сканирование директорий. ...а вот сегодня меня торкнуло гугл поглядеть, что он знает про мой скрытосервис и вот что обнаружилось - https://msydqstlz2kzerdg.onion.ly/onions/ это видимо база/кусок базы ahmia (да, я в нее ссылку добавлял) который они зачемто выставляют в клирнет, присутствуют свежезанессеные ссылки, проверено:) Rescor 1 Цитата
iwojima Опубликовано 17 мая, 2021 Автор Жалоба Опубликовано 17 мая, 2021 Update: последний сет содержит ~36k уникальных ссылок, обновляется из источников скриптом, сканируются только новые и пропущенные (skipped by timeout) хосты. Сохраняется только индекс сайта, только текст. На сейчас набралось ~24k индексов, весит все ~600MB. Цитата
iwojima Опубликовано 19 мая, 2021 Автор Жалоба Опубликовано 19 мая, 2021 Если кому интересно поковырять - выложил все сюда gopher://iwojimavqq77l4qo.onion 1.5M ext_full_list.txt - список хостов (36852 строк). 149M index.tar.gz - индексы с активных хостов (24052 текстовых файла). scan.sh - сканер хостов, тривиальный bash скрипт. Цитата
Рекомендуемые сообщения
Присоединяйтесь к обсуждению
Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.