The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей

03.03.2025 22:39

Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek и ChatGPT). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайт данных с содержимым 2.67 миллиардов web-страниц.

Сканирование показало, что в наборе присутствует 2.76 миллионов web-страниц, в которые встроены пароли и ключи доступа к API. Всего в архиве зафиксировано 11908 уникальных ключей и паролей, встроенных в HTML-разметку или JavaScript-код web-страниц и успешно прошедших проверку (учитывались только действующие учётные данные, которые позволили успешно подключиться к связанным с ними сервисам). 63% ключей и паролей повторно использовались на нескольких страницах. Например, ключ к API WalkScore присутствовал на 57 тысячах страниц, связанных с 1871 поддоменом.

Из наиболее интересных находок отмечается использование на стороне фронтэнда ключа для доступа к хранилищу AWS S3 и наличие на одной из web-страниц одновременно 17 webhook-ов к каналам Slack. Наиболее часто встраиваемыми учётными данными оказались API-ключи к Mailchimp - выявлено около 1500 подобных ключей, которые были указаны прямо в HTML-формах или JavaScript-коде, вместо использования переменных окружения на серверной стороне. Некоторые компании-разработчики ПО использовали одни и те же API-ключи на сайтах разных клиентов.

Предполагается, что использование небезопасного кода при обучении AI-моделей может негативно повлиять на качество работы модели и привести к генерации небезопасного вывода. Предпосылкой к изучению встроенных в web-страницы ключей послужило то, что большинство популярных больших языковых моделей в ответ на запрос кода для интеграции со Slack и Stripe выдали небезопасные примеры, использующие встраивание ключей прямо в web-страницу. Исследователи заинтересовались данным вопросом и попытались изучить насколько часто подобный уязвимый код встречается в данных, задействованных при обучении.



  1. Главная ссылка к новости (https://trufflesecurity.com/bl...)
  2. OpenNews: Утечка токена для полного доступа к GitHub-репозиториям проекта Python
  3. OpenNews: Утечка токенов пользователей платформы Hugging Face Spaces
  4. OpenNews: В публичном коде найден GitHub-токен от внутренних репозиториев Мерседес
  5. OpenNews: В публичных логах Travis CI выявлено около 73 тысяч токенов и паролей открытых проектов
  6. OpenNews: GitHub реализовал возможность упреждающей блокировки утечек токенов к API
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/62823-leak
Ключевые слова: leak, ai, security
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (44) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 23:12, 03/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +35 +/
    Стоит заметить, что создатели оригинальной статьи поступили очень плохо и грязно, назвав её "Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek's Training Data". Да, технически они правы, но на деле практически все современные языковые модели были обучены на CommonCrawl, это по сути самый популярный датасет для моделей вообще. Но Trufflehog, похоже, решили ещё раз показать именно в сторону Deepseek, что-то вида "вот видите, как у них всё плохо и небезопасно", так как из-за успеха Deepseek многие начали обвинять эту компанию во всех смертных грехах.
     
     
  • 2.31, Аноним (31), 08:13, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • –7 +/
    а в чём успех, уже заработали миллиард или пока только в планах?
     
     
  • 3.32, EuPhobos (ok), 08:17, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +10 +/
    Обрушить акции конкурента, и переманить не малую часть пользователей оплачивать свой сервис - это не успех?
     
  • 3.47, Ivan_83 (ok), 14:22, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Не, там реально как будто амеры открыли кран на канализационной трубе, у них прям сильно-сильно пригорело от DeepSeek.
     
  • 3.53, Аноним (53), 17:15, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Так они вам и скажут, на сколько денег их "знакомые" зашортили стоки, ждите.
     

  • 1.2, Аноним (2), 23:13, 03/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +6 +/
    Классический вебдев, хоть что-то не меняется в этом мире.
     
     
  • 2.10, Аноним (10), 00:42, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Классический вебдев, хоть что-то не меняется в этом мире.

    Зато ж сколько хайпа у веб-дев было, когда принудительно везде засаживали HTTPS ...

     
     
  • 3.29, пох. (?), 07:24, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну уот же ж - ключи теперь утекают - безопастненько!

     

  • 1.4, Аноним (4), 00:03, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    > Наиболее часто встраиваемыми учётными данными оказались API-ключи к
    > Mailchimp - выявлено около 1500 подобных ключей, которые были указаны
    > прямо в HTML-формах или JavaScript-коде, вместо использования
    > переменных окружения на серверной стороне

    Хм.. и их до сих пор не нашли господа cпамеры и не разослали тонны спама? (после чего маилчимп должен был поблочить ключ).. Да, обленились...

     
     
  • 2.7, чатжпт (?), 00:18, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    github весь завален ключами от сервисов, от s3, логины/пароли от почтовых ящиков и баз данных.. адъ и израиль.
    я одному товарищу написал, что у него утекли секреты от s3, через месяц проверил, а они все еще актуальны. Комментарии излишни
     
     
  • 3.9, Аноним (4), 00:38, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну васянский С3 мало кому интересен. ценных данных там нет, разве что снесут и положат файлик  "для восстановления пересылать 1.5 битка сюда". И то врядли, что тот вообще найдёт этот файлик, а если найдёт, то 1.5 битка у него нету и никогда не будет. а вот почта это спам, судя по потокам оного это комуто да интересно.
     
     
  • 4.28, пох. (?), 07:23, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    ну может хотя бы сгодится свою порнуху хранить?
     
     
  • 5.59, Аноним (59), 19:53, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Да, где то мелькал прототип проекта для размещения своих данных на 100500 чужих поломатых хостингах, шифруем, рубим на небольшие чанки и раскладываем по N (если N кажется мало, то можно M или даже Q*2) копий вот в такие вот S3 и гугл доксы. ну пропадёт десяток-другой, 80+% останется.

    Дело только в автоматизации регулярной проверки "выбывших", поиска новых "жертв" и восстановлении кворума.

    Сверху обвязку в фузе, и пиши-читай.. писать да, не быстро.. но при наличии буфера на запись может оказаться и ничего.

    Главное в Великобританиию не писать.. а то вроде им там законом предписано умереть от угрызений совести, если они не смогут расшифровать данные со своего сервиса. Не хорошо'с получится...

     
  • 3.39, onanim (?), 11:34, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    и это же хорошо! когда мне нужен доступ к какому-то дорогому сервису, или к сервису, где геморная регистрация типа "укажите ваш е-мэйл в домене .edu или .gov и мы рассмотрим вашу заявку в течение 99 рабочих дней" я просто открываю гугл, пишу site:github.com или site:gitlab.com, "адрес сервиса" "api" (или "pass" или "key") и пользуюсь.
    спасибо вчерашним таксистам за удобный доступ.
     
  • 2.27, пох. (?), 07:22, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    то есть как это не нашли и как это не разослали?!
    И чего вдруг должен - когда оная мак@ка именно для спамрассылок и нужна?

    Счет за эти рассылки, правда, выставят кому-то не совсем тому, но тот их тоже оплатит не присматриваясь - "что-то в этом месяце подорожало, надо бы девляпсам в пятницу плетей выписать"

     

  • 1.8, Аноним (8), 00:33, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –6 +/
    Тогда ещё griggorii говорил что всё в мире уязвимо даже твой монитор , умная колонка или же другая вещь hdd-ssd-data я учёный cdn , диалог учёный аналитег: нет я не мошенник , но надо зарабатывать сдерем дата сет код чужой стабле machine , скажем что наш и бинари тоже или сделаем слакс и потом из этого альт или другую поделку мол не убунту основанную на дебиане за счёт именно стандартизации расширения .deb и тому подобное у. Ну и ушел в другую метадату.
     
     
  • 2.12, Аноним (12), 01:29, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Это какая-то очень фиговая модель. Даже Алиса выражается яснее
     
     
  • 3.16, N (?), 02:12, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Эта модель 65536 , даже плюс тебе поставила что бы ты не был доволен , как видишь эта модель не нуждается во внимании , а лишь констатирует факты.
     

  • 1.15, Аноним (15), 01:47, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Датасеты какие-то, второй человек в США черпает информацию из сторис в Инстаграмме.
     
     
  • 2.18, Аноним (18), 02:51, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    и купил при этом твиттер, заодно переименовав его?
     
     
  • 3.19, Аноним (15), 03:21, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Маск такой же фейк как пашка дуров, который на словах оппозиционер, революционер, гений, бездетный холостяк.
     
     
  • 4.25, пох. (?), 07:18, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Но волосы-то с ладошек - пересадил себе на плешь! Завидуй, Иплон!

     
     
  • 5.44, Аноним (44), 13:32, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А от чего у него растут волосы на ладонях? Школьные истории о побочных эффектах онанризма прпвда?
     
  • 3.26, пох. (?), 07:20, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это первый купил, не перепутай.
    И первый не в сторис а в тиктоке в основном информируетсо.

    Второй хотя бы честно использует произведенный в стране продукт.

     
  • 3.48, Ivan_83 (ok), 14:24, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Он про JD Вэнса ващето.
     
  • 2.38, YetAnotherOnanym (ok), 10:17, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > второй человек в США черпает информацию из сторис в Инстаграмме

    А откуда он должен их черпать, чтобы снискать одобрение анонима Опеннета? Из протоколов ареопага Богемской рощи?

     

  • 1.17, Аноним (18), 02:51, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Минууууточку Я конечно понимаю, что наверное ключики надо было положить на сто... большой текст свёрнут, показать
     
     
  • 2.22, qwe (??), 06:30, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Как тогда пользователь _из своего браузера_ получит доступ к апи?

    Ну, можно хотя бы, хм... получить ключи отдельным асинхронным запросом после аутентификации, а уж после того юзать апи из браузера. Тоже палево, но не такое палево, как встраивание этих ключей в статику, которую может прочесть любой бот.

     
  • 2.33, Аноним (31), 08:18, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Все тут нормально с ключами в форме, просто забыли добавить доступ к самой странице. Или Васян-админ специально открыл, чтобы не париться.
     
  • 2.34, EuPhobos (ok), 08:19, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Как тогда пользователь _из своего браузера_ получит доступ к апи?

    Про куки не слышали?

     

  • 1.23, пох. (?), 07:15, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    НУ НАКОНЕЦ-ТО! ДОЖДАЛИСЬ!

    Теперь я могу задать чатгопоте и дипкику вопрос, ответ на который меня на самом деле интересует - "какое, блин, кодовое слово сбербак привесил к моей карте?"

     
     
  • 2.46, Аноним (46), 13:41, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >сбербак

    идеально! =)

     

  • 1.30, Аноним (30), 08:06, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    А вы думали зачем все это? Когда какой-нибудь Мэйл.ру открывал бесплатную почту, вы думали, что это не для того, чтобы читать ваши письма? Когда какой-нибудь яндекс и гугл открывали поисковики, вы думали , что это чтобы не читать ваши поисковые запросы? Когда они открыли "безопасный" DNS, свои операционки, телефоны, колонки? А тут у них просто еще не все срослось. Слишком много палятся, что на самом деле все эти "ИИ в браузере" будут на самом деле лить кучу приватной информации, даже ваши пароли.
     
     
  • 2.54, Аноним (54), 17:39, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Всё это было понятно но все сервисы и особенно поиск каждый человек не может позволить на своих серверах держать. :(
     

  • 1.36, тоже Аноним (ok), 08:50, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Я правильно понимаю, что Зоркий Глаз нашел, например, такие "уязвимости"?


    Добавьте в заголовок head HTML-страницы строку следующего вида:
    <head>
        <script src="https://api-maps.yandex.ru/2.1/?apikey=ваш API-ключ&lang=ru_RU" type="text/javascript">
        </script>
    </head>



     
     
  • 2.40, prokoudine (ok), 12:50, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Либо кого-то попросили дать ссылку, и он скопипастил урл, будучи залогиненым. А в урле был ключ. Страницу, куда он скопипастил, спарсили и положили для обучения.
     
  • 2.64, Аноним (18), 22:38, 05/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну да.
    Можно конечно было написать на php, но ты же понимаешь, что тогда выполнятся он будет на сервере, а не в браузере миллионов хомячков.
     
     
  • 3.65, тоже Аноним (ok), 08:47, 06/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Я понимаю, что нет смысла прятать то, что не имеет ценности.
     

  • 1.37, Аноним (37), 09:11, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Сколько же всякого мусора на самом деле покоится в этих "топовых" датасетах...
     
     
  • 2.41, Аноним (41), 12:52, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Хм, а отечественные датасеты в открытом доступе где-либо существуют?
     

  • 1.43, fuggy (ok), 13:26, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    >  большинство популярных больших языковых моделей в ответ на запрос кода для интеграции со Slack и Stripe выдали небезопасные примеры, использующие встраивание ключей прямо в web-страницу

    На чём учились тому и научились.
    Но вообще веберы обленились. Всё тащат на фронт, и даже в S3 и Slack ходят с фронта. Не удивлюсь если у каждой из этих фирм есть специалист по ИБ, но ему гораздо интереснее чтобы согласие на обработку ПД было по форме.

     
     
  • 2.56, Аноним (54), 17:48, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Дело не в том что-то кто-то ленится. Дело в том что прибыль получают только самые быстрые :(
     

  • 1.52, Анонимище (?), 16:56, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Представьте себе алгоритм-анализатор с дедукцией уровня Эйнштейна. Заприте его на субъективные миллионы лет(внутри время идет быстрее) в симуляции где он будет читать и перечитывать CommonCrawl. Я уверен, в результате обнаружится столько интересной информации, что эти несчатные ключи просто померкнут на общем фоне. Скандалы-интриги-расследования потекут рекой, от мелких до мегакрупных
     
     
  • 2.55, Аноним (54), 17:44, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Он от качества этой информации просто отупеет и по истечению времени вы его уже не узнаете. :)
     

  • 1.57, Аноним (-), 19:11, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Т е я пока все эти ИИ технологии отношу к цифровому оружию Как это по другому ... большой текст свёрнут, показать
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2025 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру