Головна Спільнота

Чому комп’ютерний зір на edge — це не ML-задача, а інженерна дисципліна

1 лютого 2026 05:32 10 хвилин читання

У сучасноми IT-середовищі існує ілюзія: комп’ютерний зір (CV) зводиться до вибору архітектури нейромережі. Дискусії точаться навколо mAP (Mean Average Precision), вибору між YOLOv8 чи Transformer, та кількості параметрів моделі. Проте досвід розробки I-SEE — системи раннього виявлення дронів — доводить: у реальному світі ML-модель становить лише 10–15% успіху. Решта — чиста системна інженерія в умовах жорстких обмежень.

Edge ≠ «Запустили модель локально»

Коли ми говоримо про Edge AI (обчислення на межі), ми маємо на увазі роботу системи в «ворожому» середовищі. На відміну від хмарних сервісів, де ресурси майже безмежні, Edge-система стикається з:

Thermal Throttling: при роботі 24/7 у закритому боксі під сонцем GPU починає скидати частоти. Якщо ваш алгоритм розрахований на стабільні 60 FPS, при перегріві він «просяде» до 15, що призведе до пропуску швидкісного FPV-дрона.
Деградація заліза: на відміну від серверів у дата-центрах, польове залізо працює від генераторів або акумуляторів з нестабільною напругою.
Відсутність «права на помилку»: у хмарі помилку можна залогувати і перезапустити сервіс. На Edge-пристрої в зоні бойових дій зависання системи — це втрачені життя.

Читайте також: AI digest липень: що змінилося у світі AI за останній місяць?

Реальне відео: боротьба за 4 пікселі на фізичному рівні

Датасети (COCO, ImageNet) — це статичні кадри з високим контрастом. Реальний відеопотік з камери, встановленої на щоглі — це динамічний хаос, де корисна інформація часто змішана з цифровим шумом.

Технічні фактори, що деградують точність моделей:

Артефакти компресії та GOP-структура: при передачі відео через RTSP (H.264/H.265) з бітрейтом 2-4 Мбіт/с виникає macroblocking. На відстані 2 км малий дрон за розміром збігається з блоком компресії. Якщо дрон рухається повільно, алгоритми міжкадрового стиснення можуть сприйняти його як фоновий шум або частину неба, «затираючи» об’єкт у P-кадрах.
Обмеження динамічного діапазону (WDR): коли камера дивиться на небо, сенсор стикається з екстремальним перепадом яскравості. Стандартні 8-бітні сенсори втрачають деталізацію в тінях або пересвічують небо. Використання широкого динамічного діапазону (WDR/HDR) часто створює ghosting-ефекти (розмиття об’єктів у русі), що робить трекінг швидких FPV неможливим.
Проблема «Small Object Detection» у CNN: архітектури типу YOLO використовують операції Downsampling (pooling/strided convolutions). На кожному етапі роздільна здатність зменшується. Якщо об’єкт на вході має розмір 4x4 пікселі, після третього шару мережі він перетворюється на 1 піксель активації, втрачаючи всі характерні ознаки. Класичні нейромережі просто «не бачать» того, що менше 10–15 пікселів без спеціальної архітектурної підготовки.

Інженерні рішення I-SEE для «витягування» сигналу:

1
Адаптивний препроцесинг (CLAHE): ми застосовуємо локальне вирівнювання гістограм з обмеженням контрасту. Це дозволяє проявити малоконтрастні об’єкти на фоні сірого неба або в сутінках ще до етапу інференсу.
2
Часова фільтрація та стек кадрів: замість аналізу одного статичного кадру, система аналізує різницю між сусідніми кадрами. Це дозволяє виявити рух на субпіксельному рівні, навіть якщо візуально об’єкт зливається з фоном.
3
Метод тайлінгу (Tiling/SAHI): щоб не втрачати деталі при зміні розміру под вхід нейромережі (наприклад, з 4K до 640x640), ми розбиваємо кадр на фрагменти, що перекриваються. Це зберігає оригінальну роздільну здатність для кожного пікселя, дозволяючи бачити дрон як чіткий об’єкт, а не як групу шумів.

Підписуйтеся на наші соцмережі

Latency: бюджет кожної мілісекунди

У реальному часі (Real-time) інференс (inference) — це лише верхівка айсберга. Повний цикл затримки складається з:

1
Ingestion: захоплення кадру з камери (5-30 мс).
2
Decoding: розпакування H.264/H.265 потоку на GPU (10-20 мс).
3
Preprocessing: зміна розміру, нормалізація кольору (5-15 мс).
4
Inference: робота нейромережі (15-40 мс).
5
Post-processing & Tracking: аналіз результатів та зв’язування об’єктів у треки (5-10 мс).
6
Alerting: передавання сигналу в месенджер або на турель (100 мс — кілька секунд).

Якщо ви прискорите модель на 5 мс, але втратите 20 мс на неефективному декодуванні відео — система стане повільнішою. Інженерія Edge AI — це оптимізація всього пайплайну, часто з використанням низькорівневих бібліотек типу NVIDIA TensorRT або GStreamer.

Війна з «хибняками» (False Positives)

Найбільший ворог автоматизації — не пропуск дрона, а занадто велика кількість фальшивих тривог. Якщо система реагує на кожного горобця, оператор вимкне її через годину.

Чому ML не вирішує це самотужки? Птах на великій відстані візуально ідентичний дрону. Вони мають схожі розміри та колір.

Інженерний подхід I-SEE:

Аналіз траєкторії: дрони літають за певними фізичними законами. Птахи мають інший характер прискорення та зміни вектору.
Часова стабільність: ми не даємо тривогу по одному кадру. Об’єкт має бути підтверджений системою протягом N кадрів із логікою «передбачення» його позиції (Kalman Filters).
Маски та зони: інженерне налаштування «заборонених зон», де рух ігнорується (наприклад, дерева, що гойдаються на вітрі).

Архітектура: деградація замість падіння

Система I-SEE побудована як модульне ядро. Це означає, що модулі детекції, трекінгу та сповіщення ізольовані.

Гарячий старт: система має бути готова до роботи миттєво. Всі важкі моделі «прогріваються» при запуску ОС.
P2P-мережа: ми реалізували можливість обміну даними між постами без центрального сервера. Це інженерна задача з мережевих протоколів та безпеки, а не з ML.
Offline-first: весь інтелект перебуває «у коробці». Жодних хмарних запитів. Це вимагає надзвичайної оптимізації пам’яті (RAM/VRAM), щоб ОС не вбила процес через нестачу ресурсів.

Від даних до ситуаційної обізнаності: дизайн інтерфейсу рішень

Кінцевий результат роботи інженера Edge AI — це не mAP, а інтерфейс прийняття рішень. В I-SEE оператор не дивиться «кіно». Він отримує ситуаційну обізнаність через три критичні компоненти:

1
Структурована метаінформація: візуальне підтвердження: система миттєво робить «кроп» (вирізку) об’єкта з оригінальної роздільної здатності кадру. Це дозволяє оператору за частку секунди відрізнити «Шахед» від цивільного літака.Геопросторові дані: Розрахунок азимута та кута піднесення на основі PTZ-координат камери. Використовуючи висоту встановлення камери та кутовий розмір об’єкта, I-SEE оцінює орієнтовну відстань до цілі, що критично для систем локального РЕБ.
2
Візуальне підтвердження: система миттєво робить «кроп» (вирізку) об’єкта з оригінальної роздільної здатності кадру. Це дозволяє оператору за частку секунди відрізнити «Шахед» від цивільного літака.
3
Геопросторові дані: розрахунок азимута та кута піднесення на основі PTZ-координат камери. Використовуючи висоту встановлення камери та кутовий розмір об’єкта, I-SEE оцінює орієнтовну відстань до цілі, що критично для систем локального РЕБ.
4
Прогнозування та векторна логіка:Розрахунок треку: система будує вектор руху на основі історії останніх 30-60 кадрів. Це дозволяє обчислити Time to Impact (TTI) — час до підльоту до об’єкта, що охороняється. Точка випередження: для інтеграції з турелями або сіткострілами система вираховує не поточне положення цілі, а точку, де вона опиниться через час затримки реакції виконавчого мехазму.
5
Розрахунок треку: система будує вектор руху на основі історії останніх 30-60 кадрів. Це дозволяє обчислити Time to Impact (TTI) — час до підльоту до об’єкта, що охороняється.
6
Точка випередження: для інтеграції з турелями або сіткострілами система вираховує не поточне положення цілі, а точку, де вона опиниться через час затримки реакції виконавчого мехазму.
7
Мережева дистрибуція сповіщень: оптимізація для слабких каналів: Миттєвий дубляж у Telegram/Discord з фотодоказом. При цьому розмір зображення та метаданих оптимізується для передачі через вузькі канали (наприклад, супутниковий зв'язок або LoraWan). Мобільний командний центр: завдяки MVP-додатку підрозділи в радіусі дії можуть отримувати попередження ще до того, як дрон увійде в їхню зону видимості.
8
Оптимізація для слабких каналів: миттєвий дубляж у Telegram/Discord з фотодоказом. При цьому розмір зображення та метаданих оптимізується для передачі через вузькі канали (наприклад, супутниковий зв'язок або LoraWan).
9
Мобільний командний центр: завдяки MVP-застосунку підрозділи в радіусі дії можуть отримувати попередження ще до того, як дрон увійде в їхню зону видимості.

Це перетворює систему з простого «детектора об’єктів» на повноцінний командний інструмент, який мінімізує когнітивне навантаження на людину.

Комп’ютерний зір на edge: нова інженерна школа

Edge-AI в умовах війни — це не просто IT-продукт, це нова дисципліна, що базується на чотирьох фундаментах:

1
Вбудовані системи (Embedded): глибоке розуміння апаратних прискорювачів (NVIDIA TensorRT, Intel OpenVINO). Інженер має знати, як працює квантування моделі з FP32 до INT8, щоб витиснути максимум FPS без втрати дальності виявлення 4-піксельних цілей.
2
Мережеве програмування: оптимізація передавання даних у середовищі з високим джитером та втратами пакетів. Це робота з низькорівневими протоколами UDP/RTP та побудова стійких P2P-архітектур, де кожен вузол є незалежним інтелектуальним центром.
3
Математичний аналіз та тригонометрія: переклад піксельних координат у реальні географічні вектори. Використання фільтрів Калмана для передбачення траєкторії та проективна геометрія для оцінки відстані — це математика, що рятує життя.
4
Психологія користувача (UX у стресі): проєктування систем, що не викликають «втоми від тривог» (alarm fatigue). Задача інженера — відфільтрувати 99.9% шуму, залишивши оператору лише ту інформацію, яка потребує негайної дії.

Майбутнє комп’ютерного зору не в тому, щоб зробити модель на 1% точнішою в лабораторних умовах. Воно в тому, щоб змусити алгоритми безвідмовно працювати на дешевому залізі в диму, тумані та під вогнем. Саме таку інженерну школу, загартовану реальним боєм, ми будуємо сьогодні в Україні.

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.