MZN #698

Где искать современную поисковую систему

альтернатива дисфункциональным поисковикам мэйнстрима

Казалось бы, если у вас достаточно ресурсов для того, чтобы хранить базу данных всего интернета, то отчего не приписать в алгоритмы пару строчек, чтобы понимать, что происходит?

Желая отыскать в сети заинтересовавший нас термин, мы привычно вбиваем слово в адресную или поисковую строку и жмем "ввод", но задумываемся ли мы о том, что такое современная поисковая система? Мы считаем таковой ту, которая установлена в браузере в качестве поисковой системы по умолчанию, и свыкаемся с известными ошибками или странностями, возникающими в ее работе.

Мы привыкаем получать не то, чего просили, приучаемся к тому, чтобы менять запрос повторно, затем в третий раз, потому что поисковая система систематически его исправляла, дополняла или была не способна найти точное вхождение (которое, конечно же, было в наличии).

Все это мы списываем на работу неких таинственных алгоритмов, вплотную смыкающихся с могущественной нейросетью роевого AI. В действительности эти алгоритмы крайне примитивны и мэйнстримные поисковые системы - это пример того, как можно извратить элементарное техзадание и плохо проделать простейшую работу.

Издревле существовали определенные слова, при помощи которых пользователь мог протестировать поисковую систему на предмет ее соответствия современным требованиям. И если в начале нулевых интеллигентный человек тестировал поисковики исключительно словом "суккуб", то с начала второй декады к числу проверочных слов по праву присоединяется "гиноид".

Дойти до конца - история робототехники
Хронология развития робототехники и история Гиноидов от начала времен до наших дней.

Самое малое, чего пользователь вправе ожидать от современной поисковой системы, это чтобы та не меняла слово "гиноид" на "геноцид".

В отличие от Яндекса, Гугль не допускает таких ляпов, но действует по своему: он находит иррелевантное значение, которое определяется никому, кроме Гугля, не известными потребностями рекламодателя, и, исходя из этого, выдает пятьдесят тысяч результатов, исключая из них то, что состоящие из полутора строчек алгоритмы считают "очень похожими страницами".

Оставляя вне рамок исследования поисковик корпорации Google, который в принципе перестал выполнять свои задачи и стал тем же анахроничным монстром, каким в 2004 году на фоне набирающего обороты Google был Yahoo, а в 1997 Lycos на фоне Рамблера, вынесем на повестку дня вопрос о соответствии современным условиям поисковика компании Yandex.

Несомненно, что пользователь, отказавшийся от Google в пользу Яндекса, находит ведущий поисковик российского интернета весьма продвинутой и не лишенной обаяния системой. Тем не менее, нам должно быть очевидно, что поисковик, по умолчанию подставляющий "геноцид" вместо "гиноида", ошибается и в остальном, а значит не имеет возможности справляться с решением заявленных задач.

Альтернативами двум самым популярным в русскоязычной сети поисковикам сегодня являются DuckDuckGo и малоизвестный Qwant. Что касается поисковика Bing, то карнавал википедии (восемь из десяти результатов ведут на разные версии страниц википедии) по запросу "гиноид" показывает полную неработоспособность этой системы.

DuckDuckGo использует для поиска объединенную базу данных, которая скомпилирована на основе поисковых баз нескольких поисковиков, включая Bing и Yandex, что упрощает добавление сайта в поисковую выдачу - вам достаточно проиндексировать страницу, использовав инструментарий вебмастера одной из названных поисковых систем. Одновременно с этим в DuckDuckGo применяются, как заявлено, собственные алгоритмы поиска, функциональность которых у вебмастера, в отличие от конечного пользователя, может вызвать определенные вопросы, в частности о том, почему актуальность результатов по некоторым усложненным поисковым фразам отстает от настоящего времени, как минимум, на полгода.

В принципе DuckDuckGo является одним из множества бесчисленных сервисов, которые компилируют базы других поисковых систем. Такие сервисы, известные как metasearch engines, существовали и двадцать лет назад (MetaCrawler, пару лет назад претерпевший перезапуск в качестве самостоятельного поисковика, который ищет по интернету, но блокирует пользователей сети Tor), существуют и поныне (Ixquick, подавший заявку на бесплодный ребрендинг под видом startpage.com). То, что выделяет DuckDuckGo, это маркетинг.

В отличие от DuckDuckGo, Qwant использует собственную базу данных и собственные алгоритмы. И если адекватность последних худо-бедно уживается с объединенными интересами вебмастера и пользователя, то отсутствие инструментов для добавления ресурсов в базу не может не вызывать чувства глубокого недоумения. Ведь поисковик, который позиционируется создателями как светоч предохранения частной информации*, со всей очевидностью сканирует сомнительные социальные сети и иные мэйнстримные социальные ресурсы, откуда (и больше ниоткуда) имеет возможность получить ссылки на новые страницы.

*несложно обратить внимание на то, что "не сохраняющий инфы о ваших предыдущих поисках и о вас самих" поисковик выдает разные результаты в зависимости от того, используете вы браузеры Chrome или Tor.

Является ли Qwant продуктом, возникшим в результате слаженной работы евробюрократии и европейских, прежде всего - французских и немецких спецслужб, этот вопрос остается открытым, но несомненно одно - пользователь, который желает найти в интернете слово "гиноид" и использует браузер Tor, может без колебаний прибегнуть к помощи поисковой системы Qwant.

К сожалению, ни один из рассмотренных поисковиков не ищет по даркнету, обозримость которого оставляет желать лучшего. Для поиска по сайтам .onion можно воспользоваться Ahmia. Другие так называемые поисковики по даркнету не понимают кириллицы либо индексируют ресурсы с запозданием в пятнадцать-двадцать лет. Тестирование функционала сайтов даркнета можно проводить с использованием второго из новых проверочных слов - "воргенша" (конечно, вы можете с успехом использовать его и для проверки функционала поиска в общем интернете).

Как бы то ни было, не спешите блокировать неизвестных ботов на своих вебсайтах - это могут оказаться славные дроны малоизвестных поисковых систем, которым еще предстоит заявить о себе. Однако, если вы используете CDN с файерволлом, то можете воспользоваться следующим готовым кодом, чтобы заблокировать боты всех остальных вредоносных организаций и компонентов программного обеспечения:

(http.user_agent contains "HTTrack") or (http.user_agent contains "Zeus") or (http.user_agent contains "Xaldon") or (http.user_agent contains "WWWOFFLE") or (http.user_agent contains "Widow") or (http.user_agent contains "Wget") or (http.user_agent contains "WebZIP") or (http.user_agent contains "WebWhacker") or (http.user_agent contains "WebStripper") or (http.user_agent contains "BlackWidow") or (http.user_agent contains "mailto:[email protected]") or (http.user_agent contains "ChinaClaw") or (http.user_agent contains "ExtractorPro") or (http.user_agent contains "FlashGet") or (http.user_agent contains "GetRight") or (http.user_agent contains "GetWeb!") or (http.user_agent contains "Go!Zilla") or (http.user_agent contains "Go-Ahead-Got-It") or (http.user_agent contains "GrabNet") or (http.user_agent contains "Grafula") or (http.user_agent contains "HMView") or (http.user_agent contains "InterGET") or (http.user_agent contains "JetCar") or (http.user_agent contains "LeechFTP") or (http.user_agent contains "Mass Downloader") or (http.user_agent contains "MIDown tool") or (http.user_agent contains "Mister PiX") or (http.user_agent contains "NearSite") or (http.user_agent contains "Navroad") or (http.user_agent contains "NetAnts") or (http.user_agent contains "NetSpider") or (http.user_agent contains "Net Vampire") or (http.user_agent contains "NetZIP") or (http.user_agent contains "Octopus") or (http.user_agent contains "Offline Explorer") or (http.user_agent contains "Offline Navigator") or (http.user_agent contains "PageGrabber") or (http.user_agent contains "pavuk") or (http.user_agent contains "pcBrowser") or (http.user_agent contains "RealDownload") or (http.user_agent contains "ReGet") or (http.user_agent contains "SiteSnagger") or (http.user_agent contains "SmartDownload") or (http.user_agent contains "SuperBot") or (http.user_agent contains "SuperHTTP") or (http.user_agent contains "Surfbot") or (http.user_agent contains "tAkeOut") or (http.user_agent contains "Teleport Pro") or (http.user_agent contains "VoidEYE") or (http.user_agent contains "Web Image Collector") or (http.user_agent contains "Web Sucker") or (http.user_agent contains "WebAuto") or (http.user_agent contains "WebCopier") or (http.user_agent contains "WebFetch") or (http.user_agent contains "WebGo IS") or (http.user_agent contains "WebLeacher") or (http.user_agent contains "WebReaper") or (http.user_agent contains "WebSauger") or (http.user_agent contains "Website eXtractor") or (http.user_agent contains "Website Quester") or (http.user_agent contains "SemrushBot") or (http.user_agent contains "MJ12bot") or (http.user_agent contains "AhrefsBot") or (http.user_agent contains "Riddler") or (http.user_agent contains "aiHitBot") or (http.user_agent contains "trovitBot") or (http.user_agent contains "Detectify") or (http.user_agent contains "BLEXBot") or (http.user_agent contains "LinkpadBot") or (http.user_agent contains "dotbot") or (http.user_agent contains "FlipboardProxy") or (http.user_agent contains "MegaIndex") or (http.user_agent contains "rogerBot") or (http.user_agent contains "ia_archiver")

Сохраните этот файл (bad_bots.txt) и в дальнейшем используйте его для настроек файерволла на хостинге всех проектов во всемирной сети. В файле не перечислены боты китайских поисковых систем, поскольку полная блокировка геолокации CN - это тот минимум, без которого и вовсе не следует начинать знакомства с вебразработкой.

Так же, как не все геолокации одинаково полезны, так и не все боты в действительности являются предвестниками сингулярности - некоторые из них остаются всего лишь примитивными алгоритмами, смысл существования которых ограничен нанесением максимального вреда здравому смыслу и причинением ущерба трансцендентной нейросети, пусть и в масштабах одного отдельно взятого кластера фрактального космоса.

8 мая 2019

# 699: Проклятие и благословение гипертекста
Как защитить ребенка от пышущего злобой консерватизма и оголтелого традиционализма: от невежества к передовым нейроинтерфейсам... (10.05.2019)
# 698: Где искать современную поисковую систему
Существует ли реальная альтернатива устаревшим поисковикам Google и Яндекс, и если да, то почему бы этим не воспользоваться... (08.05.2019)
# 696: Язык разметки и высокоуровневый интерфейс
От могильников идей к неиссякаемому фонтану небытия: о будущем чистого html... (05.05.2019)
# 686: Хоспис в поселковом антураже - о состоянии даркнета
Похож ли даркнет на интернет, каким мы его знали и любили двадцать лет тому назад... (16.04.2019)
# 129: Кафкианство
Обзор бесплатных хостингов, пригодных для экспансии, а также прочих полезных сервисов... (12.02.1998)
# 39: Дезорганизация: рефлексивный опыт разбора и предвосхищения
Не боюсь прослыть сказочником, но некоторые хостинги предпочли самоуничтожиться при первом контакте с MegaЦефалNews... (22.10.1997)

Свежие выпуски MegaЦефалNews (MZN)

Предшествующие выпуски: 1997 | 1998 | 1998-99 | 1999 | 1999-2001 | 2001-2004 | 2004-2012 | Тематическая подборка

Роботизированные леди-компаньоны в призме гиперпанка

Егорий Простоспичкин, 1997-2019 | donate | facebook | maledictum.org