Fosstodon @fosstodon

1 post1 participant0 posts today

**Tweede golf** @tweedegolf · 5d

New blog series: @folkertdev shows how we use SIMD in the zlib-rs project.

SIMD is crucial to good performance, but learning how to use it can be daunting. In this series we'll show concrete examples of using SIMD in a real world project.

Part 1 explains how the compiler already uses SIMD for us, how to evaluate whether it's doing a good job, and how to use a more optimal version when the current CPU supports it.

https://tweedegolf.nl/en/blog/153/simd-in-zlib-rs-part-1-autovectorization-and-target-features

@trifectatech

tweedegolf.nlSIMD in zlib-rs (part 1): Autovectorization and target features - Blog - Tweede golfI'm fascinated by the creative use of SIMD instructions. When you first learn about SIMD, it is clear that doing more multiplications in a single instruction is useful for speeding up matrix multi ...

#rustlang #datacompression #simd

**mkretz** @mkretz@floss.social · Apr 3

Apr 3

mkretz @mkretz@floss.social

While implementing complex numbers for #simd I tripped over failures wrt. negative zero. After multiple re-readings of C23 Annex G and considering the meaning of infinite infinities on a 2D plane (with zeros simply being their inverse) I believe #C and #CPlusPlus should ignore the sign of zeros and infinities in their x+iy representations of complex numbers. https://compiler-explorer.com/z/YavE4MnMj provides some motivation.
Am I missing something?

40%No, ignore signs: r=0 or r=∞ => θ is indeterminate
40%Yes, the 8 different 0s and ∞s tell me something
20%What are you talking about?

compiler-explorer.comCompiler Explorer - C++ int main() { using C = std::complex<double>; std::cout << C() * -C() << '\n'; std::cout << 0. * -C() << '\n'; }

**Habr** @habr@zhub.link · Mar 31

Mar 31

Habr @habr@zhub.link

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели. Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике ( перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц. Данная тема уже упоминалась на Хабре , но заслуживает более подробного обсуждения.

https://habr.com/ru/companies/ruvds/articles/887726/

ХабрБолее быстрые хеш-таблицы: претенденты на место SwissTable24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к...

#ruvds_статьи #хештаблицы #наука_о_данных

**N-gated Hacker News** @ngate@mastodon.social · Mar 30

Mar 30

N-gated Hacker News @ngate@mastodon.social

7 years later and we're still bravely tiptoeing around #SIMD in #Rust, like a scared toddler at the deep end of the pool. Meanwhile, Raph's #vision is still busy visioning, with all the urgency of a sloth on sedatives.
https://linebender.org/blog/towards-fearless-simd/ #Technology #Development #Programming #HackerNews #ngated

LinebenderTowards fearless SIMD, 7 years laterTowards fearless SIMD, 7 years later

**Hacker News** @h4ckernews@mastodon.social · Mar 30

Mar 30

Hacker News @h4ckernews@mastodon.social

Towards fearless SIMD, 7 years later

https://linebender.org/blog/towards-fearless-simd/

#HackerNews #Towards #fearless #SIMD #7 #years #later #SIMD #Programming #Performance #Optimization #Technology #Blog

LinebenderTowards fearless SIMD, 7 years laterTowards fearless SIMD, 7 years later

**Habr** @habr@zhub.link · Mar 22

Mar 22

Habr @habr@zhub.link

Разгон Мандельброта: SIMD с бубнами, OpenMP и CUDA

Построение множества Мандельброта — классический пример чрезвычайно параллельной задачи ( embarrassingly parallel problem). На первом курсе я впервые столкнулся с такой проблемой: тогда мы изучали SIMD-инструкции в курсе архитектур вычислительных систем. Эта тема сразу меня увлекла, и я захотел углубиться в дальнейшие оптимизации, но в течение семестра мне не хватало ни времени, ни знаний. Спустя год я решил восполнить этот пробел. Вначале мы разберем наивную реализацию, поиграемся с интринсиками (intrinsics) и, не теряя переносимости, заставим компилятор генерировать нам SIMD-инструкции. Далее добавим многопоточность и в заключение обесценим все наши старания несколькими строчками на CUDA. Возможно, эта статья поможет таким же, как я, впервые столкнувшимся с подобными задачами.

https://habr.com/ru/articles/893336/

#Мандельброт #оптимизация #cuda #openmp #simd #c++

ХабрРазгон Мандельброта: SIMD с бубнами, OpenMP и CUDAПостроение множества Мандельброта — классический пример чрезвычайно параллельной задачи ( embarrassingly parallel problem). Вначале мы разберем наивную реализацию, поиграемся с интринсиками...

**Habr** @habr@zhub.link · Mar 21

Mar 21

Habr @habr@zhub.link

Векторизация в RISC-V. Основы

Многие современные вычислительные задачи, в частности повсеместная обработка изображений и звука или работа с матрицами для ИИ, хорошо поддаются параллелизации на уровне данных. Чтобы ускорить такие вычисления, производители процессоров добавили в архитектуры специальные SIMD инструкции, которые позволяют работать за одну инструкцию сразу с несколькими элементами. В процессорах архитектуры x86 SIMD инструкции добавляются по принципу ad hoc. Из-за такого подхода, легаси и требований обратной совместимости в x86 накопилось много проблем. Архитектура RISC-V относительно молодая, и при её разработке учтён прошлый опыт. В основе подхода к SIMD в RISC-V заложили идею чистого векторного процессора. В этой статье рассмотрим основные принципы работы векторного процессора и базовые векторные операции с памятью и арифметикой.

https://habr.com/ru/articles/891356/

ХабрВекторизация в RISC-V. ОсновыМногие современные вычислительные задачи, в частности повсеместная обработка изображений и звука или работа с матрицами для ИИ, хорошо поддаются параллелизации на уровне данных. Входные данные таких...

#riscv #simd #векторизация

Continued thread

**Larry (Mr.Optimization)** @fast_code_r_us@floss.social · Mar 20

Mar 20

Larry (Mr.Optimization) @fast_code_r_us@floss.social

Now it's done :)
66mms = 3x faster than the C version. The NEON code is processing 6 pixels at a time, but must do unaligned reads and writes to make efficient use of 8-slot registers. Only shifts and adds, no multiplies or divides. This version is much easier to port to the ESP32-S3.
#simd #NEON #Optimization

Screenshot of Xcode Instruments showing the blur time for 200 iterations on the image was 66ms.

**Ayan Shafqat** @ashafq@hachyderm.io · Mar 18

Mar 18

Ayan Shafqat @ashafq@hachyderm.io

Forget the AI hype - FFT is the real unsung hero of computing...

The Fast Fourier Transform (FFT) is everywhere: multiplying large numbers, audio and video compression, high-frequency trading, weather prediction - you name it. It’s also the foundation of other key transforms: DCT for image compression, MDCT for audio compression, MFCC for machine learning, and more.

FFT is the most underrated algorithm of the 20th and 21st century — change my mind.

The first time I saw the Fourier Matrix and finally understood the Cooley-Tukey FFT, I was hooked. There’s something beautiful and elegant about its tree-like structure. Someday, I will probably write about what happens when you unravel FFT's recursion, and how it is related to the `rbit` instruction on ARM CPU. And sometimes, I just sit at my computer, and code away to make FFT run faster. It's relaxing...

Here’s one of my little achievement: A 4-point complex-to-complex FFT in just **11** AVX2 instructions. By itself, a 4-point FFT isn’t much, but as a kernel, it helps build higher-order FFTs with blazing efficiency.

Full demo implementation is on GitHub, which computes 256 point FFT under 1 micro-second on 12th gen Intel Processors.

https://gist.github.com/ashafq/eef8ef391fb58be85b325c259ce591e3

$static inline __m256 avx2_fft_kerneld4(__m256 vec) { __m256 top, bot, sum, diff; const __m256 NEGATE_MASK = _mm256_set_ps(-0.0F, 0.0F, 0.0F, 0.0F, 0.0F, 0.0F, 0.0F, 0.0F); top = vec; bot = _mm256_permute2f128_ps(vec, vec, 1); sum = _mm256_add_ps(top, bot); diff = _mm256_sub_ps(top, bot); constexpr auto PMASK1 = _MM_SHUFFLE(2, 3, 1, 0); constexpr auto PMASK2 = (2 << 4) | 0; _.m256 z = _mm256_permute2f128_ps(sum ] _mm256_permute_ps(diff, PMASK1), PMASK2); z = _mm256_xor_ps(z, NEGATE_MASK); constexpr int PMASK3 = 0 | (2 << 2) | (1 << 4) | (3 << 6); z = _mm256_castpd_ps(_mm256_permutedx64_pd(_mm256_castps_pd(z), PMASK3)); top = z; bot = _mm256_permute2f128_ps(z, z, 1); sum = _mm256_add_ps(top, bot); diff = _mm256_sub_ps(top, bot); _.m256 y = _mm256_permute2f128_ps(sum, diff, PMASK2); return y; I$

#signalprocessing #programming #simd

**Ayan Shafqat** @ashafq@hachyderm.io · Mar 18

Mar 18

Ayan Shafqat @ashafq@hachyderm.io

SIMD and IIR filters are like oil and water, hard to mix! But with some clever math tricks, we can make IIR filters parallel utilizing SIMD instructions. Check out my new (or not so new) post!

https://shafq.at/vectorizing-iir-filters.html

Ayan Shafqat · Feb 12Vectorizing IIR Filters: What are you Recursing?Disclaimer: This article took quite a while to prepare. Although I’ve made every effort to fact-check and ensure the accuracy of the content, there may still be errors. If you notice any mistakes, please feel free to reach out and let me know! I like writing programs that run …

#signalprocessing #C #programming

**arya dradjica** @bal4e@tech.lgbt · Mar 17

Mar 17

arya dradjica @bal4e@tech.lgbt

Why in the world does VADDPD (floating-point addition) have a worse throughput than VFMADD132PD (floating-point multiplication and addition) on 2014 Intel Haswell chips
I might genuinely start performing a fused multiply by 1.0 in order to speed my code up

#simd #vectorization

**Jiří Činčura ↹** @cincura_net@mas.to · Mar 12

Mar 12

Jiří Činčura ↹ @cincura_net@mas.to

(Not) Vectorizing the .NET Dictionary class

https://gist.github.com/kg/f5bfe4c095f66d2dcda5f1e43e015cf1

Gist(Not) Vectorizing the .NET Dictionary class(Not) Vectorizing the .NET Dictionary class. GitHub Gist: instantly share code, notes, and snippets.

#dotnet #simd

**N-gated Hacker News** @ngate@mastodon.social · Mar 7

Mar 7

N-gated Hacker News @ngate@mastodon.social

Ah, the classic tale of a coder thinking #SIMD would make their code fly , only to discover it trips over its own feet . Our hero's memory seems as patchy as their #benchmarks, but fear not, the valuable lesson here is clear: #optimization is just a synonym for #headache.
https://genna.win/blog/convolution-simd/ #coding #woes #lessons #HackerNews #ngated

genna.winPerformance optimization, and how to do it wrong | Just wing itOptimization is hard. And sometimes, the compiler makes it even harder.

**Hacker News** @h4ckernews@mastodon.social · Mar 7

Mar 7

Hacker News @h4ckernews@mastodon.social

Performance optimization, and how to do it wrong — https://genna.win/blog/convolution-simd/
#HackerNews #PerformanceOptimization #HowToDoItWrong #Convolution #SIMD #HackerNews #Blog

genna.winPerformance optimization, and how to do it wrong | Just wing itOptimization is hard. And sometimes, the compiler makes it even harder.

**Несерьёзный Выдумщик** @grumb@idealists.su · Mar 6

Mar 6

Несерьёзный Выдумщик @grumb@idealists.su

Открытие Эндрю Крапивина о хеш-таблицах и микро-указателях?
Чисто гипотетически, может и актуально, но лишь в чистой и голой computer science теории.
На практике же полно нюансов реализации, сводящихся к оптимизациям конкретных аппаратных платформ.

Например, есть #SwissTable известные с 2018 года, недавно #Golang перешёл на них (с версии 1.24). И до него на SwissTable перейти успел #Rust.

Хеш-таблицы Google SwissTable и Facebook F14 примерно одинаковые, одно лишь вариант другого.

Идея оптимизации работы вокруг использования #SIMD инструкций для поиска занятых ячеек и проверки ключа. И в тотально подавляющем большинстве случаев хватает одной проверки блока из восьми элементов.

Надо ещё много раз поиграться с вариантами реализации какой-либо идеи из чистого computer science. Посмотрев как оно ложится на аппаратную платформу сродни x86-64.

Есть prefetching памяти и работа с ОЗУ идёт через загрузку целиком всей cache line в ЦПУ, даже при обращении на чтение лишь к одному значению в пару байт.
Предыдущий пункт не только про cache misses, но и «локальность данных». Как повышающую производительность, так и приводящих к false sharing при многопоточном использовании структуры данных.
Необходимо учитывать и размер страницы виртуальной памяти, чтобы снизить «давление» на TLB и уйти от TLB miss.

Для пример, в нагруженных системах используется донастройка системы на huge pages, например, все кто используют модный #DPDK сам по себе или с каким-нибудь #Seastar:

Выбравшие не оригинальную #Kafka, а её более производительный аналог #RedPanda.
Использующие вместо Apache #Cassandra более производительную #ScyllaDB

Голая теория computer science это хорошо и замечательно, но практика омерзительна свой приземлённостью. Прямой проход перебором по небольшому массиву оказывается быстрее, чем использование binary search tree. И совершенно не важно какого именно красно-чёрного или же АВЛ.

Это не вопрос ретроградства и вызова 40-летней теории :)

#software #SoftwareDevelop #программирование #разработка #programming @russian_mastodon @ru @Russia

idealists.suAkkoma

**Habr** @habr@zhub.link · Mar 1

Mar 1

Habr @habr@zhub.link

О новых алгоритмах хеш-таблиц

Хотелось бы прокомментировать публикацию Ильи Кабанова в Медузе по поводу новых разработок в алгоритмах хеширования: " Optimal Bounds for Open Addressing Without Reordering " (Farach-Colton, Krapivin, and Kuszmaul, 2025) и последующую " The Bathroom Model: A Realistic Approach to Hash Table Algorithm Optimization " (Wang, 2025). И особенно кликбейтное: "в перспективе метод Крапивина и его коллег может ускорить многие процессы в интернете." Я около 7 лет очень плотно занимался темой хеш-таблиц и написал много их вариантов: Koloboke , SmoothieMap , memory-mapped вариации . Я потерял к теме интерес с выходом гугловской SwissTable (2018), и ее фейсбучного варианта F14 , которые основаны на SIMD. Они проверяют загруженность ячеек и совпадения "тега" элемента сразу блоками по 8 соседних слотов. Поэтому на любых разумных загрузках таблиц (до 90%) - "цепочка проверки" очень редко превышает 1 (то есть, одну проверку 8-элементного блока). В этих SIMD-based алгоритмах, ухищрения и теоретические по поводу "алгоритма шагания" просто не играют никакой роли -- алгоритм шагания можно сказать отсутствует, потому что если можно вставить элемент внутри 8-элементного блока, то это и стоит сделать. Именно эти разработки, а не Крут и не статья Yao, которую "опровергли" новые работы, стали "практическим концом теории" хеш-таблиц, на мой взгляд. SwissTable стали стандартным алгоритмом хеш-таблиц в Расте, и, буквально в этом месяце, в Golang 1.24 . В заключение, отвечая Илье Кабанову: к "ускорению интернета" эти теоретические алгоритмы не приведут :)

https://habr.com/ru/articles/887024/

ХабрО новых алгоритмах хеш-таблицХотелось бы прокомментировать публикацию Ильи Кабанова в Медузе по поводу новых разработок в алгоритмах хеширования: " Optimal Bounds for Open Addressing Without Reordering " (Farach-Colton, Krapivin,...

#хештаблицы #swisstable #simd

**LavX News** @lavxnews@mastodon.cloud · Feb 22

Feb 22

LavX News @lavxnews@mastodon.cloud

Unlocking the Power of Assembly Language in FFmpeg: A Deep Dive into SIMD Programming

FFmpeg's assembly language lessons reveal the intricacies of SIMD programming, offering developers a chance to optimize multimedia processing. This article explores the significance of assembly langua...

https://news.lavx.hu/article/unlocking-the-power-of-assembly-language-in-ffmpeg-a-deep-dive-into-simd-programming

#news #tech #FFmpeg

**Habr** @habr@zhub.link · Feb 19

Feb 19

Habr @habr@zhub.link

C++26 — встреча ISO в Хагенберге

В середине февраля в Хагенберге состоялась встреча международного комитета по стандартизации языка программирования C++. В этот раз прорабатывались следующие большие темы: std::hive Constexpr, ещё больше constexpr Безопасность, контракты, hardening, профили, UB и std::launder Relocate #embed Об этом и других новинках расскажу в посте

https://habr.com/ru/companies/yandex/articles/882518/

#c++29 #с++29 #c++26 #с++26 #с++ #c++ #reflection #constexpr #exception #simd #safety #security #undefined_behavior #memory #byte #bit #contracts #relocation #hive #object_pool #embed

ХабрC++26 — встреча ISO в ХагенбергеВ середине февраля в Хагенберге состоялась встреча международного комитета по стандартизации языка программирования C++. В этот раз прорабатывались следующие большие темы: std::hive Constexpr, ещё...

**Marcus Müller** @funkylab@mastodon.social · Feb 7

Feb 7

Marcus Müller @funkylab@mastodon.social

This is one for the #riscv folks - get it while it's hot. (And if you want to write a few optimizers: what about making the plain C versions of these numeric kernels be faster than VOLK's bespoke assembler/SIMD intrinsics version ;) ?)
https://chaos.social/@bluescreen/113964745692945217
#compilers #simd

chaos.socialJohannes (@bluescreen@chaos.social)VOLK Release v3.2 with lots of RiscV support is out :fairydust: https://www.libvolk.org/release-v320.html

**Forth Co-Processor** @PythonLinks@mastodon.social · Jan 24

Jan 24

Forth Co-Processor @PythonLinks@mastodon.social

My Vector Processor talk starts at 9:35 am California time tomorrow Saturday Jan 25th

https://www.meetup.com/sv-fig/events/305204330/?eventOrigin=group_events_list

#fpga #forth #vector

Recent searches

Search options

Administered by:

Server stats:

#simd