The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Google открыл код AI-системы Magika для определения типа содержимого файлов

16.02.2024 10:12

Компания Google объявила об открытии кода проекта Magika, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения опубликованы под лицензией Apache 2.0.

От похожих проектов, определяющих MIME-тип по содержимому, Magika отличается применением методов машинного обучения, высокой производительностью и отменной точностью определения. Модель обучена с использованием фреймворка Keras на 25 млн примеров файлов и поддерживает распознавание 116 типов данных с точностью не менее 99%. Модель скомпонована в формате ONNX и имеет размер всего 1 МБ. Задействование методов глубокого машинного обучения позволило на 50% повысить точность определения по сравнению с ранее применявшейся в Google системой на основе вручную заданных правил.

В Google система используется для классификации файлов в сервисах Gmail, Drive, Code Insight и Safe Browsing при выполнения проверок безопасности и соответствия правилам сервисов. Ведётся работа по интеграции Magika в платформу VirusTotal в качестве звена для первичной фильтрации файлов перед выполнением специфичных анализаторов. Развёрнутая в инфраструктуре Google конфигурация Magika обеспечивает сканирование нескольких миллионов файлов в секунду и нескольких сотен миллиардов файлов в неделю. После загрузки модели время формирования вывода составляет 5-6 мс при тестировании на одном ядре CPU. Время определения почти не зависит от размера файла.

Для задействования Magika в своих проектах подготовлены утилита командной строки, пакет для Python и JavaScript-библиотека, способная работать в браузере или в проектах на базе Node.js. Интерфейс командной строки и API поддерживают выполнение операций в пакетном режиме, т.е. позволяют проверять несколько файлов за один запрос. Имеется режим рекурсивного сканирования всего содержимого каталога и три режима прогнозирования для настройки устойчивости к ошибкам (высокая уверенность, средняя уверенность и наилучшая догадка).



  1. Главная ссылка к новости (https://opensource.googleblog....)
  2. OpenNews: Устранение нарушения GPL в библиотеке mimemagic привело к сбою в Ruby on Rails
  3. OpenNews: IBM открыл CodeNet для систем машинного обучения, транслирующих и проверяющих код
  4. OpenNews: GitHub открыл код библиотеки для определения языка программирования и подсветки синтаксиса
  5. OpenNews: Доступна система классификации открытого контента CKAN 1.0
  6. OpenNews: Facebook открыл код библиотеки классификации текста fastText
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/60611-magika
Ключевые слова: magika, content, type, mime, google
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (147) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 10:45, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +22 +/
    Это как раз та область где просто нужна база магических слов (примерно как и MIME) и никакого машинного обучения не нужно.
     
     
  • 2.59, test (??), 11:47, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    каких еще слов ? Вроде в конце имени файла есть расширение которое ...
     
     
  • 3.93, Аноним (93), 13:34, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +8 +/
    Которое не всегда есть и не всегда однозначно. Вот, например, .txt - это и просто текстом может быть, и конфигом cmake может оказаться.
     
     
  • 4.110, test (??), 15:13, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Как будтто .mc файл это не текст.
     
  • 3.108, чатжпт (?), 15:05, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +9 +/
    Т.е. что конвертнуть pdf-книгу в фильм надо просто переименовать файл в m4v? Ну ок
     
     
  • 4.111, test (??), 15:14, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Это тут причем ? Не давай расширения от балды и все будет нормально.
     
     
  • 5.155, Другой анон (?), 19:24, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Внезапно, но изменение расширения может сделать зловред или хакер. И что тогда будете делать?
     
     
  • 6.170, Аноним (170), 00:40, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Заранее голову включать.

    Но топик новости хороший как упражнение с AI и пример использования с точными размерами базы и т.д. Просто это можно применять для другого: мелкие утилиты для конкретных целей, вместо кросс-континентальных ДЦ.

     
  • 6.173, Sergey (??), 09:46, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    И что ? Это в какой нибудь винде и в линухе с каким нибудь ДЕ это может и повлиять, в любом случае это проблема той проги что это запустит.
    Отгпдай что означает x в маске файла rwx.
     
  • 5.163, чатжпт (?), 20:56, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Это тут причем ? Не давай расширения от балды и все будет нормально.

    ты с Дос на Вин3.11 уже обновился или еще нет?

     
  • 4.129, Аноним (129), 17:17, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    А чтобы сделать перевод на иностранный язык - просто заменить буквы. А разве нет?
     
  • 4.165, Аноним (165), 22:25, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Бухгалтеры год за годом так и делают =)
     
  • 3.109, чатжпт (?), 15:10, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Т.е. что конвертнуть pdf-книгу в фильм надо просто переименовать файл в m4v? Ну ок
     
  • 3.113, Аноним (113), 15:22, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +7 +/
    Всегда было интересно, зачем люди, ничего кроме винды не видевшие, ходят сюда?
     
     
  • 4.127, Qq (?), 16:38, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Последние версии винды, кстати, точно уже не на одно расширение смотрят, а способны учитывать заголовки внутри содержимого
     
     
  • 5.132, Sergey (??), 17:19, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Я понимаю что сегодняшнии мощностей компьютеров девать некуда.
    Покажи хоть один дистр где не deb, rpm, .h, .c и еще много чего.
    Зачем было делать обложки у книг, проще заглянуть внутрь
     
  • 5.134, Аноним (134), 17:27, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Заголовок ещё в DOS учитывался. От переименования COM в EXE и наоборот система в ступор не вставала.
     
  • 2.71, Пряник (?), 12:15, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ну почему, для фильтрации писем - самое то.
     
  • 2.81, anonymos (?), 12:57, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Иногда, лучше жевать - чем говорить!

    ~ $ echo "Hello woodpecker" > test.txt
    ~ $ rar a test.rar test.txt
    ~ $ cat image.jpg test.rar > result.rar # Что получится ?
    ~ $ mv result.rar result.img # Что получится ?

     
     
  • 3.83, timur.davletshin (ok), 13:10, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Иногда лучше начать с изучения пунктуации.
     
  • 3.94, Аноним (93), 13:41, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Архивируешь в Линуксе RAR'ом? Фууу... фиии. Есть же открытый 7zip.
     
     
  • 4.106, Аноним (106), 14:28, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Винрар столь данных с тебя собирает при приобретении разрешения, что чисто из чуйства противоречия все должны использовать консольный )
     
  • 4.120, pfg21 (ok), 15:48, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    если зреть в корень, то в рар5 формате есть поддержка unix атрибутов файлов, неполная чтоль жаль, без спец.файлов, но чтото есть.    
    в исходниках 7zip же нет ничего кроме винды :)    
     
     
  • 5.126, Аноним (126), 16:33, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    *.tar.7z
     
     
  • 6.133, pfg21 (ok), 17:26, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > *.tar.7z

    не смеши мои тапочки :) использования в качестве сериалиазотора файлов утилиты по управлению ленточным накопителем это жуткий костыль. архив без индекса во множестве применений неудобен. если уж думать в сторону универсального функционального архива, то сейчас есть squashfs который по возможностям превышает большинство имеющихся.

     
     
  • 7.159, _ (??), 20:12, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Дык ... эта(С) ...  

    tar есть на всём что хоть как то проходило рядом с *unix* !

    ... оно впрочем и под полуоЗЗЪ есть и под форточки, и под голубятню вашу и под ХЗ что ещё!
        ( Не ну а фиг ли ты хотел от софта на "дыряшечке" написанного пенЗионЭрами ;-Р )
    ... и до сих пор чуть ли не единственный кто аккуратно работает со всей этой помойкой :)
    ... включая ленты, да!!!!
        ( И они щуко(!) оказывается - ещё есть! Вот в понедельник осчастливили что мы раним тыщЩщу лент и "не желаете ли пошредить к еням"? :) А как? Не прочитав то? Там фин. инфа. У одменов инсульт :) )


    Твой же squashfs есть у тебя и ... и ... оппа :)

     
     
  • 8.193, pfg21 (ok), 18:44, 19/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    ага, это единственный его плюс, всё остальное - минусы поддержка есть в куче ... текст свёрнут, показать
     
  • 6.191, Аноним (191), 16:49, 18/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    7z - это и архиватор, и компрессор. использовать в добавку tar не надо. Или это была шютка юмора?
     
     
  • 7.192, Аноним (192), 19:33, 18/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Если хотеть архиватор, сохраняющий больше метаданных, чем 7-zip, то не шутка. Если сторониться победы unix way над здравым смыслом, то есть ещё dar (попытка заменить tar) и wim (кроссплатформенный из-за wimlib).
     
  • 5.182, Аноним (192), 19:40, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > в исходниках 7zip же нет ничего кроме винды :)    

    "/* p7zip stores posix attributes in high 16 bits and adds 0x8000 as marker..." - 7zMain.c

     
  • 4.135, Аноним (134), 17:28, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Пока в 7zip не будет информации для восстановления, рару замены нет.
     
     
  • 5.183, Аноним (192), 19:43, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    MultiPar правильно воспринимает par2, прицепленные к архивам (и цеплять умеет).
     
     
  • 6.189, Аноним (134), 22:27, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ничуть не сомневался, что какой-нибудь костылинг предложат.
     
     
  • 7.190, Аноним (192), 22:51, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Всегда пожалста.

    У par2 есть свои плюсы - открытый формат, множество реализаций, отсутствие привязки к типу архива.

     
     
  • 8.194, pfg21 (ok), 18:46, 19/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    и практически нулевая распространенность да и с развитием par херово, для исп... текст свёрнут, показать
     
  • 2.153, Аноним (153), 18:52, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Это как раз та область где просто нужна база магических слов (примерно как и MIME) и никакого машинного обучения не нужно.

    В тексте же прямо написано, что магические слова на 50% чаще ошибаются, и что именно машинное обучение нужно: «Задействование методов глубокого машинного обучения позволило на 50% повысить точность определения по сравнению с ранее применявшейся в Google системой на основе вручную заданных правилах».

    Но проблемы нет, сделай свою систему на магических словах и утри нос уже этим гоголям. Нарасхват будешь!

     
  • 2.161, Kuromi (ok), 20:26, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Trid это вот и делает. Причем много-много лет как, так что такое вот достижение.
     

     ....большая нить свёрнута, показать (36)

  • 1.3, Alladin (?), 10:45, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    binwalk отдыхает?
     
     
  • 2.45, EuPhobos (ok), 11:28, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +15 +/
    binwalk хорош тем, что показывает структуру бинарника, с адресами где какие данные начинаются и какой длины.

    upd: протестировал, магика даже рядом не стоит с binwalk.

    Сдампленный бинарник из микросхемы SPI купленный на алишке:
    Магика: - это ISO cd-rom!
    Binwalk: - это суп из:
    LZMA compressed data,
    uImage header, header size: 64 bytes,
    Linux kernel ARM boot executable zImage
    Squashfs filesystem, little endian, created: 2019-07-18 13:59:01
    Zlib compressed data,
    Linux, CPU: ARM, image type: OS Kernel Image, compression type: none, image name: "Linux-3.10.90"


    С адресами и размерами блоков.

     
     
  • 3.105, Аноним (-), 14:13, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Сдампленный бинарник из микросхемы SPI купленный на алишке:
    > Магика: - это ISO cd-rom!

    А классные у вас там на алиэкспрессе сидиромы то :)

     
  • 3.114, похнапоха. (?), 15:22, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Неплохой результат. Нейронки вообще крайне полезная вещь, но иногда её пихают не туда куда надо, например в зубную щетку, которая "научилась" выключаться после минуты использования, ибо у меня нет времени и желания утром спеша на работу, тратить больше времени на чистку, но когда мне действительно надо почистить больше минуты, это выключение раздражает, черт побери, мне не лень коснуться пальцем кнопки выключения тогда, когда МНЕ НАДО, а не тогда, когда "умная" счетка считает это нужным, типа "научившись"!
     
     
  • 4.176, fidoman (ok), 13:57, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    удивительно зачем нейронка там, где нужен только датчик ускорения и таймер... и включаться так же можно.
    видимо просто для того, чтобы громко написать буквы ИИ на упаковке и бодро трындеть об этом в рекламе.
    та же проблема с телефонами, из которых убрали датчик уха и поставили "ИИ"... и которые теперь либо не выключают экран, либо включают в самый неподходящий момент.
     

  • 1.6, Аноним (6), 10:47, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    У ibmagic емнип под сотни мс на каждый файл выходило, так что "5-6 мс" не так уж плохо.
     
     
  • 2.140, Аноним (140), 17:44, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Но это 5-6 мс нейронки. А это не то же самое что 5-6 мс алгоритма.
    Тут надо смотреть на качество ответа.
    С таким же успехом можно и алгоритм подкрутить в духе "отвечай за 4мс, если не успеваешь отдавай рандомный ответ из непроверенных форматов".
    Ну и справедливости ради можно и нейронку подкрутить поставив на выходе вторую нейронку "убедись что ответ с высокой вероятностью правдив" и увеличив время выполнения до бесконечности.
     
     
  • 3.156, амоним (?), 19:30, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    ананим фантазирует?
     
  • 2.166, fuggy (ok), 23:06, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Нужно сравнение всех инструментов. Сколько сигнатур умеет file? Тут заявлено 161, а на остальных оно отвечает не знаю, тогда о каких 99% точности можно говорить.
     
     
  • 3.168, Аноним (6), 23:21, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Сложно сказать, но вроде не так и много. Многие файлы не распознаёт, опять же (даже на обычном utf-16 обламывается) или распознаёт с ошибками. Зато куча доисторических форматов прямиком из 70х, которые никак не встретишь сегодня, неплохо бы дропнуть их и сравнить производительность.
     

  • 1.8, pelmaniac (?), 10:48, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Подавляющему большинству не нужно проверять мульёны файлов с сек.
    Оно хоть лучше apache tika? Которое умеет не только тип определить, но и text вытащить.
     
     
  • 2.14, Аноним (6), 10:53, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Ну вот открываешь ты файловый менеджер… А, нет, вот открывает подавляющее меньшинство файловый менеджер, и хочет видеть в нём распознавание по типу файла, ну, чтобы не открывались видеофайлы в текстовом редакторе. Вполне типичная задача. Если текущие решения не способны обеспечить надёжное распознавание, самое время их заменить.
     
     
  • 3.19, Уть (?), 10:59, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +10 +/
    Говорят, есть утерянная технология древней цивилизации, называется "расширение", позволяет идентифицировать тип файла, просто взглянув на него, и ваще что-то невероятное - запускать нужную программу для открытия файла автоматически!
     
     
  • 4.21, Аноним (6), 11:03, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Так это только в досе было и в некоторой мере в венде, тогда просто не было вариантов. Сегодня уже как-то неактуально. Не вспоминая уж про любителей переименовывать jpg в png и наоборот (а это разные либы).
     
     
  • 5.35, Аноним (134), 11:23, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    До сих пор такое с завидной регулярностью встречается.
     
     
  • 6.107, Аноним (106), 14:29, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    В Линукс?
     
     
  • 7.136, Аноним (134), 17:32, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Картинки из интернета.
     
  • 5.185, Аноним (192), 20:34, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Сегодня уже как-то неактуально.

    Звучит как "назло виндоводам отморожу уши". Ты хочешь прикрутить ИИ для того, чтобы он тебе подсказывал "это tar, сжатый xz". А может проще дописать ".tar.xz"? А с текстовыми форматами-то какое веселье будет - C или C++, заголовочный файл или нет, субтитры или логи, JSON или JSON5...

    Расширения файлов продолжают использоваться, потому что полезны людям.

     
     
  • 6.186, Аноним (6), 21:13, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Я очень сомневаюсь, что любой ИИ в принципе справится с этой задачей без извлечения файла неизвестного размера. А так, каждый день я вижу зип-файлы переименованные в рар, рар переименованные в 7з и так далее. Видно, как они полезны людям.
     
     
  • 7.188, Аноним (192), 22:00, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ну да, полезны. Они хотя бы их не удаляют со словами "сегодня уже как-то неактуально" и ошибаются лишь в пределах ассоциаций с одной программой.
     
  • 4.26, Аноним (26), 11:11, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Сейчас система сама определяет что ты и как открываешь пример тот же мак.
     
  • 4.37, Аноним (134), 11:23, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Отчёт.doc.exe, да, молодость…
     
  • 4.38, Аноним (134), 11:25, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А теперь представь: десяток тысяч файлов, вытащенных с поломанной файловой системы, с именами вида file0000.chk (или как их восстанавливающий софт назовёт), очень полезно тут расширение, да.
     
     
  • 5.119, похнапоха. (?), 15:46, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Для десятков тысяч файлов нужно использовать нормальные ФС, и нормальные стораджа, тогда после проверки условным fsck помятой ФС не будут появлятся подобные файлы...
     
     
  • 6.137, Аноним (134), 17:33, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А теперь добро пожаловать в реальную жизнь. А ещё кроме побитых ФС встречаются побитые накопители, и никакая нормальная ФС тут не поможет.
     
     
  • 7.143, Аноним (140), 17:47, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Добро пожаловать в клуб экстрасенсов, которые предскажут данные по 0% исходных. В остальном все просто - если данные есть (пускай и в соседних блоках или можно исправить по кодам или читается один раз из 100), то их можно восстановить (другое дело что не для каждой ФС есть удобный инструмент).
     
     
  • 8.157, Аноним (134), 19:32, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Вот для создания удобного инструмента такая библиотека очень и пригодится ... текст свёрнут, показать
     
  • 4.128, Qq (?), 16:41, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Времена изменились, больше расширению доверять нельзя. Вернее можно, но нельзя чтобы доверие было абсолютным
     
     
  • 5.162, Аноним (134), 20:31, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А ещё некоторые забывают, что под одним расширением могут скрываться совершенно разные файлы. Вот IMG — это что? Или RAW? Или DAT?
    А ещё (игроделы любят) давать свои расширения стандартным файлам.
     
  • 2.42, Аноним (134), 11:27, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Подавляющему большинству оно вообще не нужно. А это для того, кому нужно.
     

  • 1.18, 12yoexpert (ok), 10:57, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    а я, старый, file пользуюсь
     
     
  • 2.34, Аноним (134), 11:21, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Даже старый ДОСовский FA был лучше, чем file.
     
     
  • 3.87, Аноним (87), 13:17, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Количество типов файлов несравнимо.
     
  • 2.95, Вован (??), 13:50, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ха, тут ещё про TrID можно вспомнить.
     

  • 1.20, garrick (?), 11:00, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    А теперь любое ПО можно AI-системой называть?
     
     
  • 2.25, Аноним (6), 11:10, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Претренированная модель звучит не так красиво, а так ml в различных представлениях много где встречается. Проблема в том, что доверять им нельзя по факту (при этом, поставщик вполне может успешно решать свои задачи, но это его задачи и его модели, тренированные на его датасетах).
     

  • 1.24, Аноним (24), 11:09, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Очень хорошая вешь, давно хотел сам такую работу сделать. Но у меня ни дейтасетов, ни железа, ни глубокого понимания работы нейросетей нет.
     
     
  • 2.27, Аноним (26), 11:13, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ни применения потому что ты итак знаешь что и как открывать, естественным интеллектом.
     
     
  • 3.36, Аноним (24), 11:23, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Мне для других целей. И по-видимому вообще другое. Подробности плана знают немногие люди, тут светить не буду, а то ещё кто-нибудь вместо меня сделает.
     
     
  • 4.82, Аноним (82), 13:00, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > кто-нибудь вместо меня сделает

    Что значит "вместо меня"? Судя по вашему комментарию, вы это делать не собираетесь, так как у вас ничего нет.

     
     
  • 5.85, Аноним (85), 13:12, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ну собираюсь, но когда-нибудь, когда необходимые ресурсы, знание и финансирование будут. Моя идея на порядки круче чем то, что тут сделали.
     
     
  • 6.89, Аноним (6), 13:19, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Лучше подумай, как сделать дешевле. Круче никому не интересно, надо эффективнее.
     
     
  • 7.90, Аноним (85), 13:30, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    То, что я хочу сделать, для моего применения и есть эффективнее.
     
     
  • 8.121, Аноним (-), 15:49, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ну, если только твоего - тогда тебе это и оплачивать, очевидно ... текст свёрнут, показать
     
  • 4.145, Аноним (140), 17:49, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Заходит изобретатель в бар и говорит:
    Знаете, у меня есть гениальная идея, но я вам ее не расскажу...
     

  • 1.30, Аноним (30), 11:19, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    Подсунул бинарь с float-ами, а оно его вообще никак не распознало - размазало по 1 проценту на все типы файлов, лол
     
     
  • 2.33, 12yoexpert (ok), 11:20, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    ты б ещё бинарь с байтами подсунул
     
     
  • 3.39, Аноним (134), 11:26, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А если с битами!
     
     
  • 4.96, Аноним (93), 13:51, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Распознал бы как бейсбольные_биты.jpg
     
     
  • 5.116, Аноним (-), 15:40, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Распознал бы как бейсбольные_биты.jpg

    У них в ассортименте вроде только пожарные гидранты, школьные автобусы, переходы и велосипеды. Ну вот такой странный мир у гугла - состоит из вот этого вот. Бейсбольных бит в мире гугла не существует.

     
     
  • 6.181, Аноним (181), 18:04, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ну вообще то ещё светофоры бывают и иногда легковушки. Грузовиков вот тоже не видел ни разу.
     

  • 1.32, Аноним (24), 11:20, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    >[tool.poetry]
    >name = "assets-generation"

    Они там совсем крышей поехали со своими Poetry и  venvами. Впрочем, для гуглага этот идиотизм характерен, те же Bazel (которым собирают почти все проекты гуглага, котгрые надо защитить от грязных рук сообщества, чтобы палки в колёса не ставили) и сборочная система андроида следуют тому же паттерну

     
     
  • 2.72, Пряник (?), 12:17, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    А как ты управляешь virtualenv'ами? Вручную?
     
     
  • 3.78, Аноним (24), 12:32, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Я говно не кушаю. venv использую только для тестирования бутстрапа своего пакетного менеджера с нуля при нуле установленных пакетов.
     
     
  • 4.88, Пряник (?), 13:19, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    [quote]для тестирования бутстрапа своего велосипеда[/quote]

    я поправил

     
     
  • 5.91, Аноним (85), 13:31, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Любой де-факто стандарт был когда-то велосипедом.
     
  • 2.117, Аноним (-), 15:42, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Они там совсем крышей поехали со своими Poetry и  venvами.

    Он художник^W, он поэт, он так видит. Хотя реально за@#$ли господа из гуглы тянущие свой местечковый шитец в котором кроме них никто не рубит. Смысл в опенсорс такое вываливать - около плинтуса.

     
     
  • 3.148, Аноним (148), 18:19, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    poetry - это не поделка гугла. Это хипстерская система пакетирования, используемая поехавшими хипстерами, завязанная на venvы и не следующая стандарту PEP 621.
     
  • 2.158, Аноним (134), 19:50, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Не выпендривались бы и сделали на мейкфайлах, чтобы анониму было удобно.
     

  • 1.40, Аноним (40), 11:27, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Вероятно эта штука нужна для того, чтобы гугл сканировал файлы на гугл-дисках пользователей. Например, искать там что-то незаконное или то, что то, что их интересует.
     
     
  • 2.52, Аноним (52), 11:35, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    да, искать незаконное они умеют
    http://opennet.ru/opennews/art.shtml?num=56574
     
     
  • 3.184, похъ (?), 20:20, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    ну так вот вам и ответ, как они это там нашли.

    Причем поскольку жаловаться некуда - этот успех тоже записали в 99% точность определения - ведь file не находил ничего незаконного в единичке - а это-то чудо - вот, нашло!

     
  • 2.56, Аноним (56), 11:40, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Незаконное их если и волнует, то в последнюю очередь.
     

  • 1.49, Аноним (24), 11:33, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >import dotenv

    Ещё один признак поехатости. Какие-то придурки придумали хранить "переменные окружения" в локальной папке в специальном файле вместо использования механизмов ОС и оболочки для переменных окружения. А гугл — заюзал это дерьмо.

     
     
  • 2.57, Аноним (56), 11:41, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    У виндузятников нет механизмов ОС.
     
     
  • 3.65, Аноним (24), 11:58, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >set A=b

    А это что?

     
  • 3.70, n00by (ok), 12:14, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Читать документацию, похоже, умеют одни виндузятники.

    Чтобы программно добавить или изменить системные переменные среды, добавьте их в раздел реестра HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\Session Manager\Environment

    https://learn.microsoft.com/ru-ru/windows/win32/procthread/environment-variabl

     
     
  • 4.118, Аноним (-), 15:44, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > добавьте их в раздел реестра
    > HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\Session Manager\Environment

    Виндовс очень дружественная к пользователям система, кули...

     
     
  • 5.138, Аноним (134), 17:35, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Рулить переменными окружения через гуй ещё начиная с XP можно.
     
  • 5.174, n00by (ok), 10:17, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    >>> У виндузятников нет механизмов ОС.
    >> добавьте их в раздел реестра
    >> HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\Session Manager\Environment
    > Виндовс очень дружественная к пользователям система

    Значит надо было набросить "монструозный механизм ОС", а не исходную ересь.

     
  • 2.73, Пряник (?), 12:18, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Какого ты плохого мнения об авторах Bash. Зачем они хранят переменные окружения в bashrc?
     
     
  • 3.77, Аноним (24), 12:31, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    bashrc - ъто стандартный способ, .env - это васяноподелка.
     
     
  • 4.139, Аноним (134), 17:36, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Очень стандартно, а если у меня оболочка нестандартная? Zsh тоже оттуда читать будет?
     
     
  • 5.149, Аноним (148), 18:21, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    кажется был ещё какой-то файлик, но я добавляю в bashrc. zsh не имеет смысла без oh my zsh — помойки скриптов от кого попало.
     

  • 1.51, Аноним (24), 11:34, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >from magika import magika, prediction_mode

    Кто-то либо не умеет в импорт через точку, либо не осилил DRY-принцип.

     
  • 1.54, Аноним (24), 11:36, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    >Magika = magika.Magika

    Также кто-то не научился правильно пользоваться from ... import

     
  • 1.58, Аноним (24), 11:43, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    >   for path in tqdm(paths, disable=self._disable_progress_bar):

    Они там долбанулись в БИБЛИОТЕКЕ для использования в программах использовать TQDM (либу для рисовки прогрессбара в stdout, а также GUI-прогрессбаров).

     
     
  • 2.74, Пряник (?), 12:20, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Надо было Rich сразу импортировать. У него звёзд в гитхабе больше.
     

  • 1.60, Аноним (24), 11:48, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >def _extract_features_from_path(
    >def _extract_features_from_bytes(
    >почти одинаковый код

    Кто-то не умеет в mmap.

     
     
  • 2.142, Аноним (-), 17:46, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Питонисты никогда не умели в posix api. Поэтому все эти supervisord, celery и os.path цветут пышным цветом и отравляют жизнь нормальным людям.
     
     
  • 3.150, Аноним (148), 18:22, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    это не posix api, а кроссплатформенное. просто имя совпадает.
     

  • 1.61, Аноним (61), 11:49, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Файлы ресурсов из игр сабж может потрошить? Почти у каждого такого файла своя неповторимая структура.
     
     
  • 2.63, Аноним (24), 11:55, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, не умеет. Извлекаются блоки байтов из начала файла, конца файла и середины. На них обцчается нейронка. По-видимому выдаёт только классы. Просто крайне узкоспециализированный кусок говна.
     

  • 1.66, Анонист (?), 12:03, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Что-то мне сдаётся, что для этой задачи AI - абсолютный оверинжиниринг. Неуж-то бы дожили то того, что теперь вместо фреймворков везде на каждый пук будут пихать AI?
     
     
  • 2.67, Аноним (24), 12:08, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Для моей задачи ИИ никак не оверинжиниринг, а вообще единственный вариант.
     
     
  • 3.100, Аноним (100), 13:53, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Если бы сейчас не было распространения нейросетей, а ваша задача стояла, то как бы вы поступили? Сразу сдались бы?
     
     
  • 4.103, Аноним (85), 13:56, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Делал бы как и раньше, и как и сейчас делаю.
     
     
  • 5.141, Аноним (134), 17:45, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Дедам годилось, и нам сгодится!
     
     
  • 6.151, Аноним (148), 18:23, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    нет, не сгодится, к сожалению.
     
  • 2.104, Quad Romb (ok), 14:00, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Типов файлов очень много - врукопашную умаешься правила на все писать.
    И каждый год количество этих типов подрастает.
    Так что если такой классификатор ресурсов ест немного, то имеет право на жизнь.

    Но, думаю следующим этапом будет автоматизированное создание вот по таким обученными сетям классификаторов на основе быстрых деревьев.
    Потому что главная проблема в этих штуках, что их никак не заставишь явно размотать, на основе чего они отнесли объект к тому или иному классу. Да, и корректировать поведение деревянного классификатора гораздо-гораздо легче.

     

  • 1.69, Аноним (24), 12:11, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Как всегда в репертуаре гугла — ради нескольких свистоперделок требуется одна из наиболее свежих версий питона.
     
     
  • 2.75, Пряник (?), 12:22, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Слазь уже со второй версии 😂
     
     
  • 3.80, Аноним (24), 12:35, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Я никогда не сидел на второй версии и мой софт её никогда не поддерживал.
     
  • 2.92, Аноним (6), 13:33, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вполне законно, никто не будет писать на доисторической версии по своей воле. Тем более, в случае с питоном, существует только последняя версия. За последние лет 10 проблемы совместимости были практически только с асинхронным кодом и кривыми биндингами, поэтому лично я не вижу ни одной причины поддерживать копролиты.
     
     
  • 3.102, Аноним (85), 13:54, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Да там и по остальным признакам видно, что авторы халтурят.
     
     
  • 4.112, Аноним (6), 15:17, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Вроде, ничего криминального. Ну poetry с ruff и всё остальное вряд ли, но имеют право.
     
     
  • 5.152, Аноним (148), 18:25, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    если выкинуть ненужные свистоперделки, то и на более ранних пойдёт.
     
     
  • 6.154, Аноним (6), 19:01, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Более ранние, чем 3.8? Ты сейчас серьёзно? Это абсолютный минимум во всех проектах, причём, объективно, должно быть хотя бы 3.9. В коде просто тонны легаси из-за этой поддержки доисторических версий.
     

  • 1.76, n00by (ok), 12:30, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Зачем это на VirusTotal? Гугл хочет решать, кто из вендоров получит образец?
     
  • 1.86, Аноним (87), 13:14, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Посмотрел список "116 типов данных" по ссылке: какой-то особой экзотики не бросилось в глаза, заметная часть из них однозначно детектится по сигнатуре/заголовку.
    Когда-то писал приблуду для проверки типов бинарных файлов, для распространённых форматов зачастую хватало прочитать 8 байт, для некоторых форматов понадобилось побольше, до 16 байт, и только в одном случае 30.
    Вот с текстовыми посложнее, это да, хотя и тут есть тот же шебанг, теги XML и HTML.
     
  • 1.115, Вы забыли заполнить поле Name (?), 15:26, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Лучшее расширение для гуглопчты или драйва— это зашифрованный архив tar.gpg.
     
  • 1.131, Вы забыли заполнить поле Name (?), 17:18, 16/02/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    Радует, что новый питонячий код с аннотациями типов пишут.
     
     
  • 2.144, Аноним (-), 17:48, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Что радует, то, что в number теперь можно сунуть string или то, что в питоне процветает карго культ статической типизации?
     
     
  • 3.167, Аноним (167), 23:07, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > в number теперь можно сунуть string

    Так написал, будто это что-то плохое

     
  • 3.169, Вы забыли заполнить поле Name (?), 23:32, 16/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Что радует, то, что в number теперь можно сунуть string или то,
    > что в питоне процветает карго культ статической типизации?

    Что популярность указания типов в питоне станоавится таким же как в typescript.

     
  • 3.171, Аноним (170), 00:44, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Что радует, то, что в number теперь можно сунуть string или то, что в питоне процветает карго культ статической типизации?

    Учитывая, что даже AI иногда чушь порет, типизация - добро всё ещё. Ибо блокирует характерные ошибки, а AI тоже кодер не очень пока ещё.

     
  • 2.172, Аноним (-), 07:43, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Питон испольняется на виртуальной машине. Вопрос, зачем интерпретируемому языку программирования понадобились типы?
     
     
  • 3.175, Аноним (175), 10:59, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Типы облегчают тестирование и сопровождение кода. То есть, они нужны человеку, а не языку программирования.
     
  • 3.187, Вы забыли заполнить поле Name (?), 21:51, 17/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Питон испольняется на виртуальной машине. Вопрос, зачем интерпретируемому языку программирования
    > понадобились типы?

    1. Эта информация исользуется и доступна в рантайме: dataclasses, pydantic
    2. Типы можно проверить до запуска (как в typescript), а в рантайме игнорить. Это разные вещи.
    3. В python добавили экспериментальный jit https://github.com/python/cpython/commit/f6d9e5926b6138994eaa60d1c36462e361057

     
  • 3.195, Аноним (195), 20:00, 21/02/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Языку программирования ничего не нужно, "он же памятник!" (с)
    Объяснять зачем нужны типы бессмысленно - программисту это и так понятно, остальные поймут на первом курсе. Или не поймут.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру