Скрейпинг Temu в 2025: реальный кейс с антиботом, ротацией и прокси
Разбираем полный цикл построения надёжного скрейпера для Temu: от выбора стека и прокси до обхода JavaScript‑челленджей и сбора тысяч карточек товаров без единого 403.

Скрейпинг Temu в 2025: реальный кейс с антиботом, ротацией и прокси
Разбираем полный цикл построения надёжного скрейпера для Temu: от выбора стека и прокси до обхода JavaScript‑челленджей и сбора тысяч карточек товаров без единого 403.
Парсинг российских СМИ
В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .
Как обойти ограничения TradingView и забирать данные с графика без использования платных функций (через Pine Script)
Приветствую! Я Никита, разработчик торговых стратегий и инструментов в международном криптовалютном фонде Wild Boar. Здесь пишу об алгоритмической торговле, делюсь опытом и помогаю внимательным читателям владеть не только ситуацией на рынке, но и всем (почему – см. внутри). В этой статье делюсь нестандартным методом, который позволяет обойти ограничения TradingView и забирать данные с графика без использования платных функций.
«Потеряли на колёсах десятки миллионов, айтишники, помогайте»
Нас позвали в цех решить задачу. Приходим — там тишина, люди ходят мрачные. Оказалось, недавно пришлось экстренно вернуть обратно в ремонт более 1000 колёсных пар, потому что не нашлось их диагностических протоколов. Это очень дорого. И больно. Причину быстро нашли. Там был ненадёжный элемент, отвечающий за взаимодействие между буксами и вибростендом. Человек. Реальный человеческий фактор в системе диагностики. В вагоне колёса жёстко сидят на одной оси, и у каждой есть букса — подшипниковый узел, который позволяет колёсной паре вращаться. Букса проверяется вибродиагностикой. На вибростенде её раскручивают до 300 оборотов в минуту и датчики слушают, нет ли странных звуков. По результатам формируется протокол, где указано, пригодна ли букса. По регламенту в конце рабочего дня оператор должен распечатать протоколы за смену и подшить их в архивную папку. Для этого нужно подойти к стенду, авторизоваться, выбрать период, сформировать сводный файл отчёта (или единичный отчёт) и нажать кнопку «Печать». Все протоколы хранятся в бумажном виде — в тех самых архивных папках, а ещё в закрытой базе данных стенда. Если потеряется папка с бумажками или база данных стенда внезапно решит уйти в отпуск, при проверке будет много вопросов. Очень много вопросов. А если в грузовом составе с такой колёсной парой под вагоном что-то пойдёт не так, это уже не просто накладка, а огромная проблема, которую разбирать будут очень серьёзные люди. После инцидента с теми самыми 1000 колёсными парами отдел качества обнаружил, что на заводе есть айтишники. И мы даже умеем правильно хранить документы. Собственно, из-за этой суперспособности нас и позвали.
КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?
Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку... Нырнуть в мусорку от Яндекса...
Автоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФ
Во время расчёта доходности торговли валютными парами или акциями pre-IPO , для расчетов NPV и других финансовых показателей всегда нужны актуальные курсы валютных пар. Долгое время открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы ЦБ РФ становится лень – и тут на помощь приходят Excel и VBA. Наипростейшее решение – сделать в Excel выпадающий список с выбором валюты и написать макрос, который сам подтянет нужный курс с сайта ЦБ РФ . Тогда я смогу просто выбрать, например, USD или EUR , и таблица сама подставит актуальный курс в расчет. Звучит классно, пора делать.
Настраиваем паука для сбора данных: как работает фреймворк Scrapy
В Точке мы обучаем наших AI-ассистентов, а для этого нужно много данных. В статье расскажу, как быстро собрать информацию практически с любого сайта при помощи фреймворка Scrapy.
Нейросеть против ДТП: как мы разработали искусственный интеллект, чтобы обезопасить поездки в автобусе
Уже несколько лет человечество активно внедряет автоматизированные системы с участием нейросетей в свою повседневность. Вопреки расхожему мнению, не только компании извлекают из этого выгоду, но и обычные люди. И речь не только о коммерческой выгоде — такие системы могут спасать жизни. Система, о которой мы сегодня расскажем, преследует цель сделать жизнь людей безопаснее и удобнее. Сколько времени человек проводит в общественном транспорте? Какие нарушения совершают водители? Можно ли повысить безопасность поездок за счет нейросетей? Ответы — в этом материале.
[Перевод] Windows 11 — по-прежнему ничего стоящего
С вами Dedoimedo, и я хочу поделиться историей об очередном эпизоде мазохизма. Раз в несколько месяцев я запускаю свой тестовый ноутбук, на котором в качестве альтернативной системы стоит Windows 11, и проверяю, произошли ли в этой ОС какие-нибудь ощутимые изменения. Последняя такая авантюра была в сентябре , и тогда я столкнулся с кучей проблем. Но не всё так страшно. Недавно я прочёл на The Register статью, в которой показано, что аудитория Windows 11 не просто не растёт, а сокращается . Как же прекрасно. Просто песня. Люблю читать бахвальные маркетинговые заявления высокопоставленных представителей компаний, особенно на фоне суровой проверки реальностью. Но в этом есть смысл. Windows 11 бесполезна — файловый менеджер тормозной, раздел настройки не дотягивает до панели управления, а аппаратные требования зачастую препятствуют возможности апгрейда. Что тут сказать… Карма и всё такое… Приступим?
PROWAY и РосНОУ заключили соглашение о сотрудничестве и взаимодействии
11 февраля Российский новый университет (РосНОУ) и дистрибьютор ИТ-оборудования PROWAY заключили соглашение о сотрудничестве и взаимодействии. В соответствие с соглашением, лаборатория инноваций PROWAY становится полигоном для практической отработки профессиональных навыков, повышения квалификации и профессиональной переподготовки. В свою очередь, на базе РосНОУ появится кафедра, которая будет разрабатывать программы стажировки для обучающихся в экосистеме дистрибутора PROWAY и его партнёров, в том числе для российских ИТ-производителей и ИБ-разработчиков.
Как посчитать проект и защитить бизнес от некорректной оценки: руководство для специалистов по данным
Сорванные дедлайны, работа в выходные, недовольный клиент — знакомо? Если да, то вы, вероятно, сталкивались с некорректной оценкой проекта. В прошлой статье я рассказывал о риск-факторах в задачах разметки и сбора данных:
Сливаем отчетность американской Cyber League с помощью базовых утилит Linux
В этой статье я расскажу, как создать хакерское приложение, используя встроенный язык программирования Linux, и собрать базу данных участников западной «Национальной Киберлиги». Можно сказать, хакнем хакеров! ;) Начнем со ссылки на отчет о соревнованиях Western National Cyber League, а закончим полноценным инструментом автоматизации. По пути рассмотрим основы работы с сURL, научимся обходить базовые ограничения веб-приложений и поработаем с PDF-документами из командной строки. Статья будет полезна специалистам по информационной безопасности и всем, кто интересуется автоматизацией процессов в Linux.
A-Tune: тонкая настройка системы с использованием машинного обучения
Привет, Хабр! Меня зовут Артём, я инженер-программист в департаменте серверных решений. В статье расскажу про новый инструмент для повышения производительности, который получилось портировать и доработать для ОС Astra Linux Special Edition.
Почему оценить стоимость датасета не так просто, как кажется на первый взгляд
Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений , и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале. Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.
Bukva: алфавит русского жестового языка
Всем привет! Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой , в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.
Как перехватывают зашифрованный HTTS-трафик на мобильном устройстве
Реверс-инжиниринг VPN-сервиса Onavo Protect под Android позволил определить методы, которые можно использовать для перехвата зашифрованного HTTPS-трафика на мобильном устройстве. Если вкратце, злоумышленник должен поставить на телефон собственное приложение и сертификат УЦ (удостоверяющего центра). Например, в РФ вступил в действие закон , который требует с 2025 года обязательной предустановки на все смартфоны конкретных приложений. Теоретически, при наличии уязвимостей это может угрожать безопасности многих пользователей.
Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности
Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.
Как собрать базу контактов в amoCRM с помощью QR-кода и SMS API
Коллегам в отдел маркетинга прислали задачу: получить как можно больше подписчиков в рассылку, не прибегая к использованию готовых программ, но при этом выделиться на фоне конкурентов. На ум приходит размещение яркого рекламного предложения-плаката с призывом подключиться к рассылке. Попробуем его оформить, сгенерировать QR-код и настроить передачу данных в CRM.
Создание и обработка медицинской базы данных с помощью python/R
Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети. Необходимо сформировать базу данных пациентов с перенесенным заболеванием COVID-19 (один выписной эпикриз ДО заболевания COVID-19, один выписной эпикриз во время заболевания и один ПОСЛЕ заболевания). Telegram для контактов: @doctor_pogozhy
Да кто такие эти ваши агенты, или как следить за большим закрытым контуром
В данном цикле статей мы глубже погрузимся в исследование агентов, расскажем, зачем они нужны, об их возможностях и нюансах работы с ними. А текущая статья, как вводная, даст общее понимание такого явления, кратко затронет типы агентов и общие форматы их внедрения в сетевую структуру.
https://habr.com/ru/companies/securityvison/articles/829960/