fosstodon.org is one of the many independent Mastodon servers you can use to participate in the fediverse.
Fosstodon is an invite only Mastodon instance that is open to those who are interested in technology; particularly free & open source software. If you wish to join, contact us for an invite.

Administered by:

Server stats:

9.9K
active users

#spacy

0 posts0 participants0 posts today

Русский Маскарад — применение NER для защиты персональных данных

Всем привет! На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин. Сегодня хочу поговорить с вами о такой малоприятной теме как защита персональных данных. Если вы точно знаете, чего хотите от этой статьи - листайте в конец, там метрики разных моделей в табличном виде. С остальными продолжим вдумчивую беседу по порядку. Мировой ландшафт в этой части воистину впечатляет тут и 152-ФЗ в России, и более 20 разных законов действующих по своему в разных штатах США и Генеральный регламент ЕС о защите персональных данных. Единственное разумное объяснение всего это регуляторного фестиваля для меня - это то, что рептилойды-инопланетяне, тайно контролирующие землю, испугались рывка технологического прогресса в искусственном интеллекте и через эти законы пытаются затормозить прогресс. Все остальные объяснения звучат просто несостоятельно. Впрочем вернемся к основной теме. Итак, сегодня мы будем соблюдать закон о персональных данных (иначе говоря побеждать заговор рептилойдов) через маскировку персональных данных.То есть мы их будем выявлять и маскировать - а потом обрабатывать данные так как нашей душеньке угодно. Для этого существует отдельный класс задач в data science: Named Entity Recognition сокращенно (NER) — технология обработки естественного языка, направленная на выделение определенных сущностей в тексте, таких как имена людей, географические объекты, названия организаций, даты, номера телефонов и другие категории. Основная цель в рамках поставленной задачи NER для маскирования персональных данных — автоматически распознавать и скрывать (маскировать) чувствительную информацию в текстах.

habr.com/ru/articles/877166/

ХабрРусский Маскарад — применение NER для защиты персональных данныхВсем привет!  На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин.  Сегодня хочу поговорить с вами о такой малоприятной теме как защита персональных  данных. Если...
#ner#spacy#Gliner

I'm having to do some work with OpenAI (comparing it against spaCy and HuggingFace for NLP and term extraction from text so that we're using the best tool for the job) and… HOLY HELL, this is an awful experience.

Prompt writing is "write and hope". There's little rhyme or reason to what it finds. It blatantly doesn't properly understand instructions and is in a "nudge it to the right bit of concept space" situation. And even at temperature 0, I'm still getting significant variety in what it extracts.

Is my spaCy code using POS tags perfect? No. Is it predictable? Yes. Can I extend it or add exclusions without unexpectedly breaking other stuff? Also yes. Is it currently the best performer? Yes, on recall. And it's faster.

#GenAI#LLMs#NLP

Сортировка книг по тематикам скриптами Python

На момент написания этой заметки около половины из 16 тысяч книг в моей библиотеке — ИТшные, другая половина — медицинские. Две трети этих книг на английском, одна треть — на русском. Примерно раз в месяц я с телеграм-каналов докачиваю еще 1–2 тысячи книг, из которых реально новых — не более 100–200, остальное у меня уже есть. Кроме того, попадаются сканированные книги с околонулевой пользой, если их не распознавать. Всё это добро мне нужно регулярно дедуплицировать, раскладывать по тематическим папочкам, выкладывать в облако для коллег и при этом не тратить на это много времени. Готовых программ для таких задач я не нашел, поэтому, как мог, справлялся сам — писал скрипты на Python.

habr.com/ru/articles/867412/

ХабрСортировка книг по тематикам скриптами PythonНа момент написания этой заметки около половины из 16 тысяч книг в моей библиотеке — ИТшные, другая половина — медицинские. Две трети этих книг на английском, одна треть — на русском. Примерно раз в...

NLP: когда машины начинают понимать нас (Часть 2)

В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков.

habr.com/ru/articles/864778/

ХабрNLP: когда машины начинают понимать нас (Часть 2)1. Введение В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка...
Continued thread

Good news, everybody!

After a half day or so of digging into spaCy and re-learning the NLP/grammar stuff that I've not done in years, I built a quick demo that extracted the tens we want from the bios! And in another few hours I had an even better function using the syntax tree/children!

No ChatGPT. No stupid prompts. Just deterministic parsing of part of speech tags from an open source library.

It's amazing what you can do when you know your domain and tools 😉

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Привет, Хабр! В этой статье расскажем вам о том, как создавать собственные токенизаторы с SpaCy. Да-да, тот самый SpaCy , который мы все знаем и любим. Стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).

habr.com/ru/companies/otus/art

ХабрРазбей и властвуй: как создать кастомный токенизатор в SpaCyПривет, Хабр! Сегодня расскажем вам о том, как создавать собственные токенизаторы с SpaCy. Да-да, тот самый SpaCy , который мы все знаем и любим. Зачем нам свой токенизатор? Согласитесь, стандартные...
#ml#nlp#python

Путь разметки данных для NER: от Open Source до Prodigy

Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных.

habr.com/ru/articles/857338/

ХабрПуть разметки данных для NER: от Open Source до ProdigyРаспознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется...

NER для начинающих: Простое объяснение с примерами на SpaCy

В этой статье мы подробно рассмотрим распознавание именованных сущностей (Named Entity Recognition, NER) и его применение на практике. Простым и доступным языком объясним , как работает NER, приведем примеры кода с использованием библиотеки SpaCy и покажем, как обучать модели для распознавания именованных сущностей. Эта статья поможет вам быстро освоить основы и начать применять NER в своих проектах!

habr.com/ru/articles/826820/

ХабрNER для начинающих: Простое объяснение с примерами на SpaCyЧто же такое, этот ваш NER? Named Entity Recognition (NER) — это задача в области NLP (Natural Language Processing) , направленная на выделение фрагментов в тексте, относящихся к классам, таким как...