fosstodon.org is one of the many independent Mastodon servers you can use to participate in the fediverse.
Fosstodon is an invite only Mastodon instance that is open to those who are interested in technology; particularly free & open source software. If you wish to join, contact us for an invite.

Administered by:

Server stats:

8.7K
active users

#сбор_данных

1 post1 participant1 post today

Скрейпинг Temu в 2025: реальный кейс с антиботом, ротацией и прокси

Разбираем полный цикл построения надёжного скрейпера для Temu: от выбора стека и прокси до обхода JavaScript‑челленджей и сбора тысяч карточек товаров без единого 403.

habr.com/ru/articles/934080/

ХабрСкрейпинг Temu в 2025: реальный кейс с антиботом, ротацией и проксиРазбираем полный цикл построения надёжного скрейпера для Temu: от выбора стека и прокси до обхода JavaScript‑челленджей и сбора тысяч карточек товаров без единого 403. Проблематика и требования...

Парсинг российских СМИ

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

habr.com/ru/articles/930188/

ХабрПарсинг российских СМИРазбираем на примере Russia Today, Коммерсант и Meduza* Возможно для вашего проекта/ресерча иногда требовалось собрать большое количество статей из каких-либо источников в виде веб-сайтов. В эпоху...

Как обойти ограничения TradingView и забирать данные с графика без использования платных функций (через Pine Script)

Приветствую! Я Никита, разработчик торговых стратегий и инструментов в международном криптовалютном фонде Wild Boar. Здесь пишу об алгоритмической торговле, делюсь опытом и помогаю внимательным читателям владеть не только ситуацией на рынке, но и всем (почему – см. внутри). В этой статье делюсь нестандартным методом, который позволяет обойти ограничения TradingView и забирать данные с графика без использования платных функций.

habr.com/ru/articles/928002/

ХабрКак обойти ограничения TradingView и забирать данные с графика без использования платных функций (через Pine Script)Приветствую! Я Никита, разработчик торговых стратегий и инструментов в международном криптовалютном фонде Wild Boar. Здесь пишу об алгоритмической торговле, делюсь опытом и помогаю внимательным...

«Потеряли на колёсах десятки миллионов, айтишники, помогайте»

Нас позвали в цех решить задачу. Приходим — там тишина, люди ходят мрачные. Оказалось, недавно пришлось экстренно вернуть обратно в ремонт более 1000 колёсных пар, потому что не нашлось их диагностических протоколов. Это очень дорого. И больно. Причину быстро нашли. Там был ненадёжный элемент, отвечающий за взаимодействие между буксами и вибростендом. Человек. Реальный человеческий фактор в системе диагностики. В вагоне колёса жёстко сидят на одной оси, и у каждой есть букса — подшипниковый узел, который позволяет колёсной паре вращаться. Букса проверяется вибродиагностикой. На вибростенде её раскручивают до 300 оборотов в минуту и датчики слушают, нет ли странных звуков. По результатам формируется протокол, где указано, пригодна ли букса. По регламенту в конце рабочего дня оператор должен распечатать протоколы за смену и подшить их в архивную папку. Для этого нужно подойти к стенду, авторизоваться, выбрать период, сформировать сводный файл отчёта (или единичный отчёт) и нажать кнопку «Печать». Все протоколы хранятся в бумажном виде — в тех самых архивных папках, а ещё в закрытой базе данных стенда. Если потеряется папка с бумажками или база данных стенда внезапно решит уйти в отпуск, при проверке будет много вопросов. Очень много вопросов. А если в грузовом составе с такой колёсной парой под вагоном что-то пойдёт не так, это уже не просто накладка, а огромная проблема, которую разбирать будут очень серьёзные люди. После инцидента с теми самыми 1000 колёсными парами отдел качества обнаружил, что на заводе есть айтишники. И мы даже умеем правильно хранить документы. Собственно, из-за этой суперспособности нас и позвали.

habr.com/ru/companies/omk-it/a

Хабр«Потеряли на колёсах десятки миллионов, айтишники, помогайте»Нас позвали в цех решить задачу. Приходим — там тишина, люди ходят мрачные. Оказалось, недавно пришлось экстренно вернуть обратно в ремонт более 1000 колёсных пар, потому что не нашлось их...

КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку... Нырнуть в мусорку от Яндекса...

habr.com/ru/articles/900132/

ХабрКОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?Счёт производства индусов идёт на секунды по мнению Алисы ПРО Недавно Яндекс "подарил" мне месячную подпис ь ку на АлисаПро - доступ к последней модели YandexGPT в рамках использования голосового...

Автоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФ

Во время расчёта доходности торговли валютными парами или акциями pre-IPO , для расчетов NPV и других финансовых показателей всегда нужны актуальные курсы валютных пар. Долгое время открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы ЦБ РФ становится лень – и тут на помощь приходят Excel и VBA. Наипростейшее решение – сделать в Excel выпадающий список с выбором валюты и написать макрос, который сам подтянет нужный курс с сайта ЦБ РФ . Тогда я смогу просто выбрать, например, USD или EUR , и таблица сама подставит актуальный курс в расчет. Звучит классно, пора делать.

habr.com/ru/articles/896756/

ХабрАвтоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФПри расчёте доходности приобретения валютных пар и акций pre-IPO всегда нужны актуальные курсы валютных пар. Постоянно открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы...

Настраиваем паука для сбора данных: как работает фреймворк Scrapy

В Точке мы обучаем наших AI-ассистентов, а для этого нужно много данных. В статье расскажу, как быстро собрать информацию практически с любого сайта при помощи фреймворка Scrapy.

habr.com/ru/companies/tochka/a

ХабрНастраиваем паука для сбора данных: как работает фреймворк ScrapyВ Точке мы обучаем наших AI-ассистентов, а для этого нужно много данных. В статье расскажу, как быстро собрать информацию практически с любого сайта при помощи фреймворка Scrapy.  Зачем компании...

Нейросеть против ДТП: как мы разработали искусственный интеллект, чтобы обезопасить поездки в автобусе

Уже несколько лет человечество активно внедряет автоматизированные системы с участием нейросетей в свою повседневность. Вопреки расхожему мнению, не только компании извлекают из этого выгоду, но и обычные люди. И речь не только о коммерческой выгоде — такие системы могут спасать жизни. Система, о которой мы сегодня расскажем, преследует цель сделать жизнь людей безопаснее и удобнее. Сколько времени человек проводит в общественном транспорте? Какие нарушения совершают водители? Можно ли повысить безопасность поездок за счет нейросетей? Ответы — в этом материале.

habr.com/ru/articles/886780/

ХабрНейросеть против ДТП: как мы разработали искусственный интеллект, чтобы обезопасить поездки в автобусеУже несколько лет человечество активно внедряет автоматизированные системы с участием нейросетей в свою повседневность. Вопреки расхожему мнению, не только компании извлекают из этого выгоду, но и...

[Перевод] Windows 11 — по-прежнему ничего стоящего

С вами Dedoimedo, и я хочу поделиться историей об очередном эпизоде мазохизма. Раз в несколько месяцев я запускаю свой тестовый ноутбук, на котором в качестве альтернативной системы стоит Windows 11, и проверяю, произошли ли в этой ОС какие-нибудь ощутимые изменения. Последняя такая авантюра была в сентябре , и тогда я столкнулся с кучей проблем. Но не всё так страшно. Недавно я прочёл на The Register статью, в которой показано, что аудитория Windows 11 не просто не растёт, а сокращается . Как же прекрасно. Просто песня. Люблю читать бахвальные маркетинговые заявления высокопоставленных представителей компаний, особенно на фоне суровой проверки реальностью. Но в этом есть смысл. Windows 11 бесполезна — файловый менеджер тормозной, раздел настройки не дотягивает до панели управления, а аппаратные требования зачастую препятствуют возможности апгрейда. Что тут сказать… Карма и всё такое… Приступим?

habr.com/ru/companies/ruvds/ar

ХабрWindows 11 — по-прежнему ничего стоящегоС вами Dedoimedo, и я хочу поделиться историей об очередном эпизоде мазохизма. Раз в несколько месяцев я запускаю свой тестовый ноутбук, на котором в качестве альтернативной системы стоит Windows 11,...

PROWAY и РосНОУ заключили соглашение о сотрудничестве и взаимодействии

11 февраля Российский новый университет (РосНОУ) и дистрибьютор ИТ-оборудования PROWAY заключили соглашение о сотрудничестве и взаимодействии. В соответствие с соглашением, лаборатория инноваций PROWAY становится полигоном для практической отработки профессиональных навыков, повышения квалификации и профессиональной переподготовки. В свою очередь, на базе РосНОУ появится кафедра, которая будет разрабатывать программы стажировки для обучающихся в экосистеме дистрибутора PROWAY и его партнёров, в том числе для российских ИТ-производителей и ИБ-разработчиков.

habr.com/ru/articles/882442/

ХабрPROWAY и РосНОУ заключили соглашение о сотрудничестве и взаимодействии11 февраля Российский новый университет (РосНОУ) и дистрибьютор ИТ-оборудования PROWAY заключили соглашение о сотрудничестве и взаимодействии. В соответствие с соглашением, лаборатория инноваций...

Как посчитать проект и защитить бизнес от некорректной оценки: руководство для специалистов по данным

Сорванные дедлайны, работа в выходные, недовольный клиент — знакомо? Если да, то вы, вероятно, сталкивались с некорректной оценкой проекта. В прошлой статье я рассказывал о риск-факторах в задачах разметки и сбора данных:

habr.com/ru/articles/881134/

ХабрКак посчитать проект и защитить бизнес от некорректной оценки: руководство для специалистов по даннымСорванные дедлайны, работа в выходные, недовольный клиент — знакомо? Если да, то вы, вероятно, сталкивались с некорректной оценкой проекта. В прошлой статье я рассказывал о риск-факторах в задачах...

Сливаем отчетность американской Cyber League с помощью базовых утилит Linux

В этой статье я расскажу, как создать хакерское приложение, используя встроенный язык программирования Linux, и собрать базу данных участников западной «Национальной Киберлиги». Можно сказать, хакнем хакеров! ;) Начнем со ссылки на отчет о соревнованиях Western National Cyber League, а закончим полноценным инструментом автоматизации. По пути рассмотрим основы работы с сURL, научимся обходить базовые ограничения веб-приложений и поработаем с PDF-документами из командной строки. Статья будет полезна специалистам по информационной безопасности и всем, кто интересуется автоматизацией процессов в Linux.

habr.com/ru/companies/bastion/

ХабрСливаем отчетность американской Cyber League с помощью базовых утилит LinuxВ этой статье я расскажу, как создать хакерское приложение, используя встроенный язык программирования Linux, и собрать базу данных участников западной "Национальной Киберлиги". Можно сказать, хакнем...

A-Tune: тонкая настройка системы с использованием машинного обучения

Привет, Хабр! Меня зовут Артём, я инженер-программист в департаменте серверных решений. В статье расскажу про новый инструмент для повышения производительности, который получилось портировать и доработать для ОС Astra Linux Special Edition.

habr.com/ru/companies/astralin

ХабрA-Tune: тонкая настройка системы с использованием машинного обученияПривет, Хабр! Меня зовут Артём, я инженер-программист в департаменте серверных решений. В статье расскажу про новый инструмент для повышения производительности, который получилось портировать и...

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений , и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале. Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

habr.com/ru/articles/855478/

ХабрПочему оценить стоимость датасета не так просто, как кажется на первый взглядПредставьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете...

Bukva: алфавит русского жестового языка

Всем привет! Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой , в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

habr.com/ru/companies/sberdevi

ХабрBukva: алфавит русского жестового языкаВсем привет! Совсем недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем....

Как перехватывают зашифрованный HTTS-трафик на мобильном устройстве

Реверс-инжиниринг VPN-сервиса Onavo Protect под Android позволил определить методы, которые можно использовать для перехвата зашифрованного HTTPS-трафика на мобильном устройстве. Если вкратце, злоумышленник должен поставить на телефон собственное приложение и сертификат УЦ (удостоверяющего центра). Например, в РФ вступил в действие закон , который требует с 2025 года обязательной предустановки на все смартфоны конкретных приложений. Теоретически, при наличии уязвимостей это может угрожать безопасности многих пользователей.

habr.com/ru/companies/globalsi

ХабрКак перехватывают зашифрованный HTTS-трафик на мобильном устройствеРеверс-инжиниринг VPN-сервиса Onavo Protect под Android позволил определить методы, которые можно использовать для перехвата зашифрованного HTTPS-трафика на мобильном устройстве. Если вкратце,...

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.

habr.com/ru/articles/847780/

ХабрТыкай и кидай голосовухи: как ускорить сбор данных для мультимодальностиПривет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует...
#cv#markup#labeling

Как собрать базу контактов в amoCRM с помощью QR-кода и SMS API

Коллегам в отдел маркетинга прислали задачу: получить как можно больше подписчиков в рассылку, не прибегая к использованию готовых программ, но при этом выделиться на фоне конкурентов. На ум приходит размещение яркого рекламного предложения-плаката с призывом подключиться к рассылке. Попробуем его оформить, сгенерировать QR-код и настроить передачу данных в CRM.

habr.com/ru/companies/exolve/a

ХабрКак собрать базу контактов в amoCRM с помощью QR-кода и SMS APIКоллегам в отдел маркетинга прислали задачу: получить как можно больше подписчиков в рассылку, не прибегая к использованию готовых программ, но при этом выделиться на фоне конкурентов. На ум приходит...

Создание и обработка медицинской базы данных с помощью python/R

Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети. Необходимо сформировать базу данных пациентов с перенесенным заболеванием COVID-19 (один выписной эпикриз ДО заболевания COVID-19, один выписной эпикриз во время заболевания и один ПОСЛЕ заболевания). Telegram для контактов: @doctor_pogozhy

habr.com/ru/articles/836734/

ХабрСоздание и обработка медицинской базы данных с помощью python/RИдея Реализация Результат Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети. Необходимо сформировать базу данных...

Да кто такие эти ваши агенты, или как следить за большим закрытым контуром

В данном цикле статей мы глубже погрузимся в исследование агентов, расскажем, зачем они нужны, об их возможностях и нюансах работы с ними. А текущая статья, как вводная, даст общее понимание такого явления, кратко затронет типы агентов и общие форматы их внедрения в сетевую структуру.

habr.com/ru/companies/security

ХабрДа кто такие эти ваши агенты, или как следить за большим закрытым контуромВ данном цикле статей мы глубже погрузимся в исследование агентов, расскажем, зачем они нужны, об их возможностях и нюансах работы с ними. А текущая статья, как вводная, даст общее понимание такого...