З DeepSeek вже витікають дані — понад 1 млн рядків, разом з історіями чатів
Витік конфіденційної інформації з бази даних DeepSeek, зокрема історії чатів, виявила дослідницька компанія Wiz Research, про що і написала в офіційному блозі.
DeepSeek використовує загальнодоступну базу даних ClickHouse (розробником якої є «Яндекс»), яка дозволяє проводити всередині будь-які дії, зокрема можливість доступу до внутрішніх даних.
Які дані витекли з DeepSeek
Розслідувачі виявили понад 1 млн логів з конфіденційною інформацією:
- історія чатів;
- секретні ключі;
- деталі серверної частини;
- секрети API;
- операційні деталі;
- інша конфіденційна інформація.
Команда Wiz Research одразу повідомила про проблему DeepSeek, і китайці наче закрили дірку в базі свого чатбота DeepSeek-R1.
Як знайшли дірку в базі даних DeepSeek
Розслідувачі вирішили оцінити безпеку нового безкоштовного ШІ і пошукати потенційні вразливості. Виявилось, що загальнодоступна база даних ClickHouse, пов’язана з DeepSeek, повністю відкрита та неавтентифікована, а також містить конфіденційні дані.
Підписуйтеся на наші соцмережі
Будь-хто мав можливість оперувати цими даними, тому що китайські розробники не створили механізм захисту від зовнішнього світу.
Wiz Research за допомогою простих методів розвідки ідентифікував на сайті приблизно 30 субдоменів, які мають прямий вихід в інтернет.
Wiz Research
Трохи розширивши пошук за межі стандартних портів HTTP (80/443), розслідувачі виявили два незвичайні відкриті порти (8123 і 9000), пов’язані з хостами:
- http://oauth2callback.deepseek.com:8123
- http://dev.deepseek.com:8123
- http://oauth2callback.deepseek.com:9000
- http://dev.deepseek.com:9000
Ці порти вели прямо на загальнодоступну БД ClickHouse.
ClickHouse — це система керування базами даних із відкритим вихідним кодом, створена для швидких аналітичних запитів до великих наборів даних. Його розробником є російський «Яндекс». ClickHouse широко використовується для оброблення даних у реальному часі, зберігання журналів та аналітики великих даних.
Через HTTP-інтерфейс ClickHouse команда вийшла на шлях /play, який дозволяв пряме виконання довільних SQL-запитів через браузер. Запуск простого SHOW TABLES дав повний список доступних наборів даних.
У великій таблиці log_stream міститься понад 1 млн рядків конфіденційних даних:
- timestamp — журнали, датовані 6 січня 2025 року;
- span_name — посилання на різні внутрішні кінцеві точки API DeepSeek;
- string.values — журнали відкритого тексту, серед яких історії чатів, ключі API, деталі серверної частини та операційні метадані;
- _service — вказує, яка служба DeepSeek згенерувала журнали;
- _source — розкриває походження запитів журналу, що містить історію чата, ключі API, структури каталогів і журнали метаданих чатбота.
Схоже, дослідники не радять поки що використовувати DeepSeek-R1
Поки світ опікується майбутніми загрозами, мовляв, ШІ замінить людину, реальна небезпека часто криється у базових ризиках того, що криворукі розробники забудуть закрити доступ до бази даних.
Ці ризики, які є фундаментальними для безпеки, повинні залишатися пріоритетом для команд безпеки. Поспішаючи використовувати ШІ-інструменти і послуги від дедалі більшої кількості стартапів і постачальників, важливо пам’ятати, що таким чином ми довіряємо цим компаніям конфіденційні дані.
Wiz Research