Специалисты исследовательского центра “Сильный ИИ в промышленности” ИТМО изучили особенности и тенденции в развитии и использовании общемирового опенсорса в области машинного обучения и работы с данными в России. По результатам исследования, на данный момент Яндекс, Сбер и Т-Банк — в тройке лидеров среди российских разработчиков опенсорс-решений. Авторы также определили топ-5 проектов в разных категориях на основе мнений экспертов ведущих российских бигтехов и университетов, а также открытых данных на GitHub и PyPI.
Исследование разделили на две части. В первой авторы проанализировали, как используется опенсорс в России. Выяснилось, что почти все компании-разработчики открытых решений в Data/ML целятся не только на внутренний, но и на международный рынок. Пользователи, в свою очередь, также выбирают решения, исходя из их эффективности, а не принадлежности разработчика к конкретной стране.
На основе мнения экспертов и открытых данных на GitHub и PyPI исследователи определили топ-5 проектов в разных категориях – ML и алгоритмы, математика, инфраструктура, визуализация BI, хранение данных и MLOps. В список лидеров вошли разработки как отечественных, так и международных компаний – например, CatBoost, LangChain, Spark, MetaBase, Numpy, ClickHouse и др.
Во второй части исследования авторы определили лидеров среди российских компаний-разработчиков, опираясь на несколько критериев. Среди них – количество open-source проектов по тематическим категориям в области Data/ML, показатели используемости этих проектов в России, а также уровень качества реализации репозиториев, количество контрибьюторов и их активность. По большинству показателей среди российских компаний лидером стал Яндекс, на втором и третьем месте – Сбер и Т-банк. В топ-10 также вошли Postgres Pro, VK, Авито, Evrone, МТС, Selectel и топовые университеты, в том числе ИТМО.
В исследовании также приняли участие эксперты из Яндекса, Сбера, Т-Банка, VK, Wildberries, Рокет Контрол, CodeScoring и МФТИ. С их помощью удалось выделить сильные и слабые стороны опенсорса, определить работающие и неработающие способы популяризации и продвижения опенсорс-решений, а также сформулировать нюансы взаимодействия с сообществом.
По результатам экспертного опроса исследователи сформировали основные тенденции и мнения, связанные с общемировым опенсорс-движением. Основной тезис по использованию платформ — GitHub по прежнему считается стандартом де-факто для открытого кода, но интерес к альтернативным площадкам (Gitee, GitVerse) не спадает. Среди перспектив развития опенсорса эксперты выделяют сохранение ключевой роли человека на фоне ИИ, запрос на демократизацию и автоматизацию применения ИИ-решений, а также “международность” open source сообщества. Кроме того, участники исследования отмечают, что тезис “вклад в опенсорс – помощь конкурентам” уходит в прошлое — все больше компаний нацелены на развитие отрасли в целом. Также, по словам экспертов, необходимо вкладываться в опенсорс-проекты финансово — у бигтехов есть для этого ресурсы, но сейчас им важно сохранить позицию на рынке.
Авторы исследования входят в сообщество ITMO OpenSource — одно из крупнейших в стране сообществ открытого кода (около 1000 участников). Экосистема открытого кода в области ИИ , созданная в ИТМО — крупнейшая среди академических по своему масштабу и уровню проработки проектов. ITMO OpenSource проводит регулярные митапы, сотрудничает с сообществом Open Data Science, привлекает студентов и аспирантов к реализации открытых проектов. Исследование даст новым участникам опенсорс-движения представление о происходящем в этой области, познакомит с точками входа и лучшими практиками.
Исследование разделили на две части. В первой авторы проанализировали, как используется опенсорс в России. Выяснилось, что почти все компании-разработчики открытых решений в Data/ML целятся не только на внутренний, но и на международный рынок. Пользователи, в свою очередь, также выбирают решения, исходя из их эффективности, а не принадлежности разработчика к конкретной стране.
На основе мнения экспертов и открытых данных на GitHub и PyPI исследователи определили топ-5 проектов в разных категориях – ML и алгоритмы, математика, инфраструктура, визуализация BI, хранение данных и MLOps. В список лидеров вошли разработки как отечественных, так и международных компаний – например, CatBoost, LangChain, Spark, MetaBase, Numpy, ClickHouse и др.
Во второй части исследования авторы определили лидеров среди российских компаний-разработчиков, опираясь на несколько критериев. Среди них – количество open-source проектов по тематическим категориям в области Data/ML, показатели используемости этих проектов в России, а также уровень качества реализации репозиториев, количество контрибьюторов и их активность. По большинству показателей среди российских компаний лидером стал Яндекс, на втором и третьем месте – Сбер и Т-банк. В топ-10 также вошли Postgres Pro, VK, Авито, Evrone, МТС, Selectel и топовые университеты, в том числе ИТМО.
В исследовании также приняли участие эксперты из Яндекса, Сбера, Т-Банка, VK, Wildberries, Рокет Контрол, CodeScoring и МФТИ. С их помощью удалось выделить сильные и слабые стороны опенсорса, определить работающие и неработающие способы популяризации и продвижения опенсорс-решений, а также сформулировать нюансы взаимодействия с сообществом.
По результатам экспертного опроса исследователи сформировали основные тенденции и мнения, связанные с общемировым опенсорс-движением. Основной тезис по использованию платформ — GitHub по прежнему считается стандартом де-факто для открытого кода, но интерес к альтернативным площадкам (Gitee, GitVerse) не спадает. Среди перспектив развития опенсорса эксперты выделяют сохранение ключевой роли человека на фоне ИИ, запрос на демократизацию и автоматизацию применения ИИ-решений, а также “международность” open source сообщества. Кроме того, участники исследования отмечают, что тезис “вклад в опенсорс – помощь конкурентам” уходит в прошлое — все больше компаний нацелены на развитие отрасли в целом. Также, по словам экспертов, необходимо вкладываться в опенсорс-проекты финансово — у бигтехов есть для этого ресурсы, но сейчас им важно сохранить позицию на рынке.
Авторы исследования входят в сообщество ITMO OpenSource — одно из крупнейших в стране сообществ открытого кода (около 1000 участников). Экосистема открытого кода в области ИИ , созданная в ИТМО — крупнейшая среди академических по своему масштабу и уровню проработки проектов. ITMO OpenSource проводит регулярные митапы, сотрудничает с сообществом Open Data Science, привлекает студентов и аспирантов к реализации открытых проектов. Исследование даст новым участникам опенсорс-движения представление о происходящем в этой области, познакомит с точками входа и лучшими практиками.