Поиск свободных уникальных ников в Telegram

Для одного проекта мне понадобился короткий ник в Telegram. Мы имеем, порядка, 70 миллионов возможных, наиболее, коротких, пятисимвольных ников. Число большое, но чисто теоретически, могло быть занято (у Telegram, порядка, миллиарда активных пользователей в месяц). У меня есть скрипт для проверки "зарегистрированности" ников крупными пачками.

https://habr.com/ru/articles/973030/

#телеграм #telegram #парсинг #анализ #ники #ник #поиск #бэкенд

Поиск свободных уникальных ников в Telegram

Для одного проекта мне понадобился короткий ник в Telegram. Минимальная длинна ника в тг - 5 символов. Доступный алфавит - [_a-z0-9] (37 символов). 37^5 = 69 343 957 Значит мы имеем, порядка, 70...

Хабр

Охлаждение после эмиграции. Грустные выводы исследования поэзии Бродского на Python

Жить в США стало лучше, но не веселее. После эмиграции поэт написал больше "холодных" стихов. Установлено математически точно с помощью кода.

https://habr.com/ru/articles/969522/

#python #nltk #парсинг #чтение #книги #литература

Охлаждение после эмиграции. Грустные выводы исследования поэзии Бродского на Python

Откуда к нам пришла зима, не знаешь ты, никто не знает. Умолкло всё. Она сама холодных губ не разжимает. Она молчит. Внезапно, вдруг упорства ты её не сломишь. Вот оттого-то каждый звук зимою ты так...

Хабр

Анализируем MLP сообщество на Пикабу или как я спарсил 65 тысяч постов с Pikabu и построил интерактивный дашборд

Дело было вечером, делать было нечего... Я, как и многие в IT, периодически просматриваю вакансии, чтобы держать руку на пульсе рынка. И знаете, что бросается в глаза? Огромное количество позиций "Аналитик данных". Хоть это и не моя основная специализация (я больше по ML), теоретическая база у меня есть. И вот я подумал: а как бы мне сделать интересный пет-проект в этой области, чтобы и навыки прокачать, и самому не заскучать?

https://habr.com/ru/articles/968106/

#python #парсинг #data_analysis #streamlit #дэшборд #пикабу #aiohttp #визуализация_данных #петпроект #plotly

Анализируем MLP сообщество на Пикабу или как я спарсил 65 тысяч постов с Pikabu и построил интерактивный дашборд

Главная дэшборда Вступление Дело было вечером, делать было нечего... Я, как и многие в IT, периодически просматриваю вакансии, чтобы держать руку на пульсе рынка. И знаете, что бросается в глаза?...

Хабр

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.

https://habr.com/ru/articles/961590/

#python #парсинг #beautifulsoup #selectolax

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python....

Хабр

Построение E2E-решения для прогнозирования временных рядов на примере метеоданных

Привет, Хабр! Четыре года назад, еще в институте, одним из моих первых серьезных проектов была простая LSTM-модель для прогноза погоды. Недавно, пересматривая старые наработки, я задался вопросом: насколько дальше можно зайти, применив накопленный за эти годы опыт и современные инженерные практики? Эта статья — история такого "рефакторинга длиною в 4 года". Это рассказ о том, как простой академический проект был переосмыслен и превращен в полноценное End-to-End (E2E) решение. Цель — не просто снова предсказать погоду, а на практическом примере продемонстрировать системный подход к построению ML-пайплайна с нуля. В статье рассматриваются все ключевые этапы: от разработки отказоустойчивого веб-скрапера до проведения сравнительного анализа трех разнородных моделей прогнозирования:

https://habr.com/ru/articles/960598/

#python #pytorch #timeseries_forecasting #парсинг

Построение E2E-решения для прогнозирования временных рядов на примере метеоданных

Привет, Хабр! Четыре года назад, еще в институте, одним из моих первых серьезных проектов была простая LSTM-модель для прогноза погоды. Недавно, пересматривая старые наработки, я задался вопросом:...

Хабр

DSL против универсальных языков: когда стоит создавать собственный доменный язык и как избежать ошибок

Мир разработки полон соблазнов изобретать собственные решения. Один из самых ярких соблазнов — создать свой DSL (Domain-Specific Language). Это звучит красиво: язык, который идеально отражает задачи конкретной предметной области. Но где заканчивается здравый смысл и начинается велосипедостроение? В статье я попробую на примерах показать, когда DSL — это спасение, а когда лучше взять старый добрый Python, C# или даже Bash.

https://habr.com/ru/articles/948242/

#dsl #domainspecific_language #универсальные_языки #Python #парсинг #грабли #пример_кода #бизнеслогика #etl #парсер

DSL против универсальных языков: когда стоит создавать собственный доменный язык и как избежать ошибок

Мир разработки полон соблазнов изобретать собственные решения. Один из самых ярких соблазнов — создать свой DSL (Domain-Specific Language). Это звучит красиво: язык, который идеально отражает задачи...

Хабр

Что если представить habr в виде obsidian-графа?

Ночью (а точнее уже утром), я не мог уснуть, из-за навязчивой мысли в голове.. А что если спарсить часть статей с хабра и представить их в виде obsidian графа, будет ли это выглядеть, как красивая база знаний?

https://habr.com/ru/articles/947226/

#дизайн #obsidian #obsidianmd #obsidian_сортировка #обсидиан #parser #парсинг #парсер #python #python3

Что если представить habr в виде obsidian-графа?

Ночью (а точнее уже утром), я не мог уснуть, из-за навязчивой мысли в голове.. А что если спарсить часть статей с хабра и представить их в виде obsidian графа, будет ли это выглядеть, как красивая...

Хабр

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

https://habr.com/ru/articles/946808/

#парсинг #kaggle #data #dataset #визуализация_данных

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в...

Хабр

[Перевод] Как превратить SQL в API на Go?

Команда Go for Devs подготовила перевод статьи о том, как превратить SQL в полноценный API прямо в Go. Автор показывает, как можно безопасно принимать WHERE -условия в виде SQL-подзапросов, валидировать их и использовать для запросов к базе. Просто, элегантно и почти без лишнего кода.

https://habr.com/ru/articles/943744/

#go #sql #api #rest #graphql #ast #парсинг #безопасность

Как превратить SQL в API на Go?

Команда  Go for Devs  подготовила перевод статьи о том, как превратить SQL в полноценный API прямо в Go. Автор показывает, как можно безопасно принимать  WHERE -условия в виде...

Хабр

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

https://habr.com/ru/articles/942374/

#парсинг_данных #парсер #парсеры #парсинг #google_maps

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и...

Хабр