PySBD est utilisable, également, en tant que « composant » greffé à #SpaCy
Lien : https://spacy.io/universe/project/python-sentence-boundary-disambiguation/
I was working on an LLM bot to track market mood, their data would be a huge boost.
Now its my turn to toot about https://spacy.io/
Learn how to OCR a PDF in Python and boost your PDF text extraction. Our spaCy Layout tutorial covers every step for an efficient Python OCR workflow. #OCR #Python #spaCy #PDFExtraction #TechTutorial
https://teguhteja.id/ocr-a-pdf-in-python-spacy-layout-tutorial/
Русский Маскарад — применение NER для защиты персональных данных
Всем привет! На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин. Сегодня хочу поговорить с вами о такой малоприятной теме как защита персональных данных. Если вы точно знаете, чего хотите от этой статьи - листайте в конец, там метрики разных моделей в табличном виде. С остальными продолжим вдумчивую беседу по порядку. Мировой ландшафт в этой части воистину впечатляет тут и 152-ФЗ в России, и более 20 разных законов действующих по своему в разных штатах США и Генеральный регламент ЕС о защите персональных данных. Единственное разумное объяснение всего это регуляторного фестиваля для меня - это то, что рептилойды-инопланетяне, тайно контролирующие землю, испугались рывка технологического прогресса в искусственном интеллекте и через эти законы пытаются затормозить прогресс. Все остальные объяснения звучат просто несостоятельно. Впрочем вернемся к основной теме. Итак, сегодня мы будем соблюдать закон о персональных данных (иначе говоря побеждать заговор рептилойдов) через маскировку персональных данных.То есть мы их будем выявлять и маскировать - а потом обрабатывать данные так как нашей душеньке угодно. Для этого существует отдельный класс задач в data science: Named Entity Recognition сокращенно (NER) — технология обработки естественного языка, направленная на выделение определенных сущностей в тексте, таких как имена людей, географические объекты, названия организаций, даты, номера телефонов и другие категории. Основная цель в рамках поставленной задачи NER для маскирования персональных данных — автоматически распознавать и скрывать (маскировать) чувствительную информацию в текстах.
Start the #PyConWeb25 with keynote by Ines Montani - founder of #SpaCy and #NLP expert - she is one of the coolest person I know in #Python community
"Estáticas básicas de texto com #Polars e #Spacy - #NLP 03 " #Python https://www.youtube.com/watch?v=FgsdmxILSFo
I'm having to do some work with OpenAI (comparing it against spaCy and HuggingFace for NLP and term extraction from text so that we're using the best tool for the job) and… HOLY HELL, this is an awful experience.
Prompt writing is "write and hope". There's little rhyme or reason to what it finds. It blatantly doesn't properly understand instructions and is in a "nudge it to the right bit of concept space" situation. And even at temperature 0, I'm still getting significant variety in what it extracts.
Is my spaCy code using POS tags perfect? No. Is it predictable? Yes. Can I extend it or add exclusions without unexpectedly breaking other stuff? Also yes. Is it currently the best performer? Yes, on recall. And it's faster.
Сортировка книг по тематикам скриптами Python
На момент написания этой заметки около половины из 16 тысяч книг в моей библиотеке — ИТшные, другая половина — медицинские. Две трети этих книг на английском, одна треть — на русском. Примерно раз в месяц я с телеграм-каналов докачиваю еще 1–2 тысячи книг, из которых реально новых — не более 100–200, остальное у меня уже есть. Кроме того, попадаются сканированные книги с околонулевой пользой, если их не распознавать. Всё это добро мне нужно регулярно дедуплицировать, раскладывать по тематическим папочкам, выкладывать в облако для коллег и при этом не тратить на это много времени. Готовых программ для таких задач я не нашел, поэтому, как мог, справлялся сам — писал скрипты на Python.
NLP: когда машины начинают понимать нас (Часть 2)
В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков.
Good news, everybody!
After a half day or so of digging into spaCy and re-learning the NLP/grammar stuff that I've not done in years, I built a quick demo that extracted the tens we want from the bios! And in another few hours I had an even better function using the syntax tree/children!
No ChatGPT. No stupid prompts. Just deterministic parsing of part of speech tags from an open source library.
It's amazing what you can do when you know your domain and tools
Разбей и властвуй: как создать кастомный токенизатор в SpaCy
Привет, Хабр! В этой статье расскажем вам о том, как создавать собственные токенизаторы с SpaCy. Да-да, тот самый SpaCy , который мы все знаем и любим. Стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).
Путь разметки данных для NER: от Open Source до Prodigy
Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных.
Excited to announce that Ines Montani @ines, co-founder of @explosion and core developer of
#spaCy, will be delivering a keynote at #EuroSciPy2024!
Ines will share insights from "10 Years of Open Source: Navigating the Next AI Revolution," exploring how open source and interoperability continue to shape the future of AI and NLP.
Get your ticket: https://ow.ly/KgbA50SU5gC
This work wouldn’t exist without a host of #FOSS tools and the hard work that goes into them. To name a few: #spaCy, Pelias, @qgis, (Geo)Pandas, LibreOffice suite, and @SankeyMATIC. Kudos to the developers and other contributors to these projects!
NER для начинающих: Простое объяснение с примерами на SpaCy
В этой статье мы подробно рассмотрим распознавание именованных сущностей (Named Entity Recognition, NER) и его применение на практике. Простым и доступным языком объясним , как работает NER, приведем примеры кода с использованием библиотеки SpaCy и покажем, как обучать модели для распознавания именованных сущностей. Эта статья поможет вам быстро освоить основы и начать применять NER в своих проектах!
At PyCon Italia 2024 Ines Montani is presenting her talk "The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs"
Follow it live now
https://2024.pycon.it/en/event/the-ai-revolution-will-not-be-monopolized-how-open-source-beats-economies-of-scale-even-for-llms