[Перевод] Как превратить SQL в API на Go?

Команда Go for Devs подготовила перевод статьи о том, как превратить SQL в полноценный API прямо в Go. Автор показывает, как можно безопасно принимать WHERE -условия в виде SQL-подзапросов, валидировать их и использовать для запросов к базе. Просто, элегантно и почти без лишнего кода.

https://habr.com/ru/articles/943744/

#go #sql #api #rest #graphql #ast #парсинг #безопасность

Как превратить SQL в API на Go?

Команда  Go for Devs  подготовила перевод статьи о том, как превратить SQL в полноценный API прямо в Go. Автор показывает, как можно безопасно принимать  WHERE -условия в виде...

Хабр

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

https://habr.com/ru/articles/942374/

#парсинг_данных #парсер #парсеры #парсинг #google_maps

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и...

Хабр

Парсинг российских СМИ

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

https://habr.com/ru/articles/930188/

#парсинг #beautifulsoup #selenium #python #сбор_данных

Парсинг российских СМИ

Разбираем на примере Russia Today, Коммерсант и Meduza* Возможно для вашего проекта/ресерча иногда требовалось собрать большое количество статей из каких-либо источников в виде веб-сайтов. В эпоху...

Хабр

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Мне приходится тратить много времени на мониторинг арбитража, госзакупок и других документов: PDF на сотни страниц, новости с «водой», RSS при этом отсутствует. Поэтому я решил разработать open-source инструмент, который сам проверяет сайты, скачивает документы и с помощью локального ИИ (GPT4All / DeepSeek) делает краткую смысловую выжимку по YAML-шаблону. Он должен работать как конвейер: источник → шаблон → интерпретация → результат. Локально, без облаков. И объединять всё в единую ленту новостей. Сейчас я дорабатываю MVP — и я хочу понять, какие шаблоны наблюдения наиболее востребованы: законопроекты, торги, релизы, или что-то ещё?

https://habr.com/ru/articles/927938/

#ai #парсинг #llm #gpt4all #yaml #opensource #selfhosted #cli #automation #documents

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Отслеживаем новости, документы и тендеры Rostral.io размышляет над ответом вместо вас Привет! Каждый день приходится столько всего отслеживать— лучше делать это в кратком пересказе и без лишних...

Хабр

ISPA Parser Generator

Разработка парсер генератора ISPA: что реализовано и какие планы на будущее.Гибкий парсер нового поколения с теми функциями, которых давно не хватает существующим решениям.

https://habr.com/ru/articles/922814/

#Пасер #Парсинг #Генерация_кода #Грамматика #Текст #разбор_текста

ISPA Parser Generator

Что это Не будем разбирать что такое парсер, но в целом это код, который разбирает ваш текст на структуру из массивов и обьектов (ключ-значение) или на классы с наследованием. Соответственно я создаю...

Хабр

Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто-то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят? Снова ко мне - к официальному YouTube Data API v3 .

https://habr.com/ru/articles/916114/

#парсинг #парсинг_контента #парсинг_сайта #парсинг_данных #парсинг_youtube #youtube_api

Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка...

Хабр

Сверхспособность LLM в понимании документа, сконвертированного в текст с ошибками — или почему наш RAG работает

Недавно я столкнулся с интересным поведением языковой модели, которое меня по-настоящему удивило, и хочу поделиться этим наблюдением с сообществом.

https://habr.com/ru/articles/915856/

#llm #парсинг #pdf #языковые_модели

Сверхспособность LLM в понимании документа, сконвертированного в текст с ошибками — или почему наш RAG работает

Недавно я столкнулся с интересным поведением языковой модели, которое меня по-настоящему удивило, и хочу поделиться этим наблюдением с сообществом. Такую иллюстрацию к статье предложил ChatGPT. Ладно...

Хабр

Разработка Telegram-бота для мониторинга цен на Авито: пошаговое руководство

Привет, Хабр! Сегодня я расскажу о том, как я разработал Telegram-бота для мониторинга цен на Авито. Бот умеет отслеживать изменения цен в объявлениях и уведомлять пользователей об изменениях. В статье я поделюсь всеми этапами разработки, от проектирования до финальной реализации.

https://habr.com/ru/articles/912836/

#python #telegram #bot #авито #парсинг #мониторинг #asyncio

Разработка Telegram-бота для мониторинга цен на Авито: пошаговое руководство

Привет, Хабр! Сегодня я расскажу о том, как я разработал Telegram-бота для мониторинга цен на Авито. Бот умеет отслеживать изменения цен в объявлениях и уведомлять пользователей об изменениях. В...

Хабр

От данных к интерфейсу: как спарсить вакансии с HH и SuperJob на C#

В современном мире анализ рынка труда становится критически важным как для соискателей, ищущих актуальные возможности, так и для компаний, изучающих конкурентную среду. Для решения этой задачи были выбраны два ключевых ресурса — HH.ru и SuperJob . В этой статье мы разберем, как объединить мощь C# для бэкенда и элегантность WPF для фронтенда, чтобы создать инструмент, который не только собирает данные, но и превращает их в ценную информацию. Парсим данные

https://habr.com/ru/articles/911652/

# #парсинг #wpf #многопоточность #hhru #superjob

От данных к интерфейсу: как спарсить вакансии с HH и SuperJob на C#

В современном мире анализ рынка труда становится критически важным как для соискателей, ищущих актуальные возможности, так и для компаний, изучающих конкурентную среду. Для решения этой задачи были...

Хабр

Обратная сторона Babel: как микроскопические языки помогают в изучении больших

В этой статье рассказывается, как крошечные, экспериментальные языки программирования, размером порой меньше 100 строк, могут неожиданным образом углубить понимание сложных промышленных языков. Будет показано, как микроязыки раскрывают суть концепций, скрытых в слоистых абстракциях Java, Rust или C++. Много примеров, кода и немного лирики.

https://habr.com/ru/articles/910864/

#микроязыки #миниязыки #ast #компилятор #парсинг #интерпретатор #обучение #языковая_архитектура

Обратная сторона Babel: как микроскопические языки помогают в изучении больших

В этой статье рассказывается, как крошечные, экспериментальные языки программирования, размером порой меньше 100 строк, могут неожиданным образом углубить понимание сложных промышленных языков. Будет...

Хабр