Ведущий аналитик данных платформы управления юридическими знаниями LEGAL_AI
Роль DA не предполагает разработку моделей, мы ожидаем от вас пристрастия и совершенствования именно в задачах Анализа Данных.
Что мы делаем
Мы автоматизируем юридическую экспертизу – на вход системы подается комплект документов, а на выходе генерируется заключение – можно ли клиенту выдавать кредит на указанных условиях, заключать с ним договор купли-продажи или брать на работу в качестве ведущего аналитика данных. В зависимости от того, что мы вытаскиваем из входных документов и того, какие юридические правила применяем, получаются те или иные виды юридических решений.
Чтобы всё это работало, для разных типов документов формируются разные схемы фактов, которые надо извлекать, потом делается разметка текстовых данных, придумываются и тренируются модели извлечения фактов, пишутся (на специальном языке) юридические правила для интерпретации извлеченных фактов.
Точность предсказания всего этого пайплайна по большей части зависит от качества исходных данных и их разметки.
В чем ваша задача
Ваша роль будет ключевой в нашей команде – вам необходимо анализировать как данные, так и результаты работы моделей, чтобы выискивать причины недостаточного качества работы пайплайна и способы, как его повысить:
- Разбираться, что вносит наибольший вклад в ошибку: грязные исходные данные, неточность или неполнота разметки, несогласованность разметчиков, кривая инструкция разметки, несбалансированность типов данных, малый размер датасетов, ошибки самих моделей (какие именно), некорректная постановка бизнес задачи, или что-то еще
- Формулировать задачи для сбора данных и их разметки – вместе с бизнес-аналитиком и датасайентистами
- Придумывать и реализовывать алгоритмы расчета согласованности разметки и иных метрик качества датасетов
- Изобретать и воплощать алгоритмы проверки соответствия размеченных датасетов инструкциям по разметке
- Подбирать подходящие метрики оценки качества отдельных моделей, пред- и пост- обработок и всего пайплайна, реализовывать их
- Смотреть на все критически, придумывать, как и что можно улучшить или испытать на прочность
В чем ваша сила
- Вы внимательны к деталям, у вас хорошие коммуникативные навыки
- Знаете математическую статистику
- Умеете структурировать и обобщать информацию
- Практикуете python и знаете основные библиотеки для анализа данных (pandas, matplotlib, numpy, scipy, sklearn)
- Знакомы с SQL, имеете опыт работы с базами данных
- Вы готовы погрузиться в чудесный мир текстовых данных и в юридический домен
- Вы любите делиться знаниями и направлять на путь данных менее опытных коллег, включая стажеров
- Будет плюсом опыт работы с текстовыми данными и знание основ и принципов ML и NLP
Условия:
- Большая DS-команда, сильные ребята, сложные задачи
- Социальный пакет (ДМС, фитнес, льготное страхование)
- Уютный офис на Большой Якиманке