Skip Navigation
Евгений Кирьянов

Евгений Кирьянов

admin
@ugrobug
141 постов 24 коммун
Каналы
Пока нет привязанных каналов.
Сообщества
Comuna
Comuna
создатель
Контен-платформа с возможностью создавать сообщества вокруг стартапов и легким кросс-постингом из телеграм
Unit-game
Unit-game
создатель
#unit-game
Сообщество по игре Unit-game, для тех, кто хочет разобраться как работает юнит-экономика на практике
Where Filmed
Where Filmed
создатель
Мы исследуем места, где снимали фильмы, сериалы и клипы и публикуем свои находки в базу данных доступную всем пользователям
Авторские блоги
Авторские блоги
создатель
Бизнес и экономика
Бизнес и экономика
создатель
Тут мы говорим о бизнесе, стартапах, технологическом предпринимательстве, экономике.
Еда
Еда
создатель
Говорим о еде, питании, производстве и изготовлении ингредиентов, рецептах и способах подачи.
Женя, у меня Стартап!
Женя, у меня Стартап!
создатель
Про стартапы без мракобесия и инфоцыганства, только наука и опыт. Знаю, что они запускаются долго, сложно и почти все умирают. Автор - Евгений Кирьянов, управляющий директор ФИОП(Роснано), руководитель акселератора Индастрикс (Газпром Нефть).
Здоровье и психология
Здоровье и психология
создатель
Искусство
Искусство
создатель
История и право
История и право
создатель
Кино, сериалы
Кино, сериалы
создатель
Книги и литература
Книги и литература
создатель
Красота и стиль
Красота и стиль
создатель
Маркетинг
Маркетинг
создатель
Мой стартап
Мой стартап
создатель
Раздел, в котором можно рассказать не только про свой стартап и бизнес, но и поделиться с сообществом идеями стартапов, собрать обратную связь и найти единомышленников!
Музыка
Музыка
создатель
Клипы, песни, биографии и истории музыкальных групп.
Наука и Технологии
Наука и Технологии
создатель
Новости
Новости
создатель
Путешествия
Путешествия
создатель
Развитие и образование
Развитие и образование
создатель
Спорт
Спорт
создатель
Строительство и ремонт
Строительство и ремонт
создатель
Хобби
Хобби
создатель
Юмор
Юмор
создатель
Сколько стоит перевести Reddit на все языки, это выгодно?

Эта история у меня началась после того, как X внезапно начал переводить все на все языки. Я в какой то момент поймал себя на мысли: а сколько вообще стоит такая штука, если делать ее не кнопкой “перевести”, а на уровне всей платформы?

Не отдельные посты, не пользователь по нажатию, а именно весь поток. Появился пост или комментарий - сразу прогнали через модель, положили переводы в базу, проиндексировали, отдали пользователям и поисковикам.

На бумаге это выглядит очень мощно. Один и тот же контент сразу становится глобальным. Любой тред можно читать на своем языке, поисковики получают страницы под разные страны, вход в продукт становится шире. Но дальше возникает простой инженерный вопрос: сколько это стоит на самом деле?

Первая прикидка: берем H100 и большую модель

Сначала я пошел по самому очевидному пути. Берем мощную универсальную модель уровня DeepSeek и ставим ее на H100. Просто потому что это сейчас стандартный подход, когда хочется “максимально качественно”. Дальше прикинул поток постов на Reddit. В день появляется около 10 млн постов и комментариев. Средний кусок текста короткий, пусть около 75 токенов. В итоге выходит примерно 800 млн входных токенов в сутки. Если переводить на 10 языков, это превращается примерно в 8 млрд выходных токенов.

Когда начинаешь накладывать это на реальную производительность большой LLM, получается неприятный результат. Чтобы переварить такой поток, нужно около 1100 видеокарт уровня H100. Это уже не “сервер с GPU”, это полноценный дата центр.

По деньгам только видеокарты тянут примерно на 40 млн долларов, а с учетом серверов, сети, охлаждения и всего остального это становится еще больше. В этот момент становится понятно, что я вообще не туда пошел в размышлениях.

Вывод очевиден - меняем модель или видеокарты.

Если задача только перевод, зачем нам модель, которая умеет рассуждать, писать тексты и симулировать диалог? Погуглил и нашел, что есть специализированные модели ИИ для перевода. Например, NLLB. Она обучена именно на переводе, работает быстрее и дешевле.

И тут экономика резко меняется. Такая модель спокойно запускается не на H100, а на гораздо более обычных картах:

RTX 4090, L40S, A10, A100.

Оптимально под продакшен выглядит L40S. Это нормальная серверная карта, не космос по цене и при этом дает хороший throughput. После пересчета получается, что вместо тысячи H100 нам нужен кластер примерно из 250 L40S. Это все еще большой масштаб. Но это уже не история уровня OpenAI. Это просто дорогая инфраструктура, которую можно посчитать и собрать.

Сколько это стоит?

Берем те же 250 L40S. Одна карта стоит примерно 7 тысяч долларов. Только GPU дают около 1.75 млн долларов затрат.

Но на практике карта не существует сама по себе. Нужны серверы, CPU, память, диски, сеть, стойки и питание. Обычно это примерно столько же сверху, но чуть чтуь дешевле. В итоге получаем примерно 2.5 млн долларов на весь кластер. Это грубая прикидка, но порядок понятен.

Теперь электричество. Одна L40S ест до 350 Вт. В сумме кластер с учетом всего остального выходит примерно на 180 кВт. За месяц это примерно 130 тысяч кВт⋅ч. Если считать по средней цене дата центра, получается около 25 тысяч евро в месяц. И здесь интересный момент: электричество не выглядит основной проблемой. Основные деньги уходят именно в закупку железа.

А нужно ли 10 языков?

На этом этапе мне стало очевидно, что главный драйвер стоимости - это количество языков. Каждый новый язык линейно увеличивает нагрузку. Но трафик при этом растет не линейно. Первые языки по количеству носителей дают огромный эффект, дальше идет убывающая отдача, переводить, например, на финский, где носителей буквально несколько миллионов, а уровень проникновения английского - 97% становится абсолютно не выгодно. . Поэтому я решил не брать 10 языков, а подумать, какие реально дают максимальный охват. Выбор был по количеству носителей, топ выглядит так:  Английский, Испанский, Португальский, Французский, Русский, Хинди и Индонезийский. Еще везде есть Немецкий, но я посмотрел, что охват не самый большой (120 млн), при этом уровень проникновения Английского в Германии очень высокий, а значит это можно точно не ставить в приоритет. Что это дает по охвату?

Если грубо посчитать всех говорящих на этих языках, включая тех, кто использует их как второй язык, получается довольно внушительная цифра. Английский около 1.4 млрд, хинди около 600 млн (да, не все в индии говорят на Хинди), испанский около 560 млн, французский около 300 млн, русский около 250 млн, португальский около 260 млн, индонезийский около 200 млн. Просто складывать эти цифры нельзя, потому что есть пересечения. Но если привести это к уникальному охвату, получается примерно 3.5 млрд человек. Это около 65% всего интернета.

Пересчет под 7 языков

Когда расчет перешел с  10 языков на 7, нагрузка упала примерно на треть. Соответственно, кластер тоже уменьшается. Вместо 250 карт получаем примерно 180 L40S.

По деньгам:

  • GPU около 1.25 млн долларов
  • полный кластер около 2 млн долларов

По электричеству:

  • примерно 90 тысяч кВт⋅ч в месяц
  • около 18 тысяч евро в месяц

То есть теряется небольшая часть потенциального охвата, но сильно экономим на инфраструктуре.

Выгодно ли это Reddit

В сухом остатке экономика выглядит довольно простой. Запуск такой системы обойдется примерно в 2 млн долларов, плюс около 0.5 млн в год на поддержку и электричество. Для компании масштаба Reddit это не те деньги, которые нельзя потратить, вопрос только в отдаче.

А отдача здесь в первую очередь в трафике. Перевод открывает доступ к поиску на локальных языках и снимает барьер входа для огромного числа пользователей. Даже если это даст всего несколько процентов роста, это уже превращается в десятки миллионов дополнительных просмотров и, как следствие, миллионы долларов рекламной выручки в год. При нормальной реализации это выглядит как инвестиция с кратным возвратом.

Поэтому я думаю, что мы увидим такой шаг от компании в очень близком будущем. 

Победа - 37 тысяч
Post image

Главная тактика в игре - не растить убытки. Поэтому не нужно вкладываться в рекламу и растить продажи пока отрицательная экономика. 

Я вначале сократил расходы офиса, добился положительной экономики и когда компания стала операционно прибыльной, то сразу начал растить продажи. 

T
Admin
Comuna 8 апр
Новые блоки

Мы сделали возможность в каждый пост добавлять блок "Рейтинг", он нужен чтобы провести голосование среди пользователей, например поставить в кинообзоре не только оценку автора, но и спросить пользователей что они думают. 

Голосуйте, что думаете о новом блоке?

Рейтинг
1
средняя оценка 1 голос

Еще один новый блок - "Врезка". Он предназначен для выделения фрагмента текста. 

Текст в этом блоке визуально выделяется на фоне остального текста в посте. Можно подчеркнуть отдельную мысль - привлечь больше внимания.
Telegram
Раз в пол года у нас традиция, всем обществом решаем куда будем переносить телеграм-каналы
Раз в пол года у нас традиция, всем обществом решаем куда будем переносить телеграм-каналы.
Я решил, что в другой мессенджер переносить не буду. Остаем в телеграм и на comuna.ru
Как получить рейтинг автору?

Автор получает рейтинг за лайки на свои посты и комментарии.  Для повышения рейтинга автора напишите пост или комментарий, который понравится участникам нашего сообщества. 

Выбор фильма
Опрос
Какой фильм вам нравится больше?
Можно выбрать только один вариант
Хроники Нарнии
Гарри Поттер
Нажмите на вариант, чтобы проголосовать
U
Admin
Comuna 14 март
Рейтинг авторов

Мы сделали отдельную страничку "Рейтинг авторов", теперь можно сравнить себя с другими писателями нашего сайта. Рейтинг считается по количеству лайков\дизлайков на ваши посты, комментарии. 

Telegram
Самое простое продуктовое исследование
Стартап не должен работать там где рынка нет. Вы должны забрать из существующего рынка недовольных текущим продуктом клиентов и сделать их своими, а потом расширяться.
Проблемные интервью - это очень простой способ выяснить чем недовольны потребители. Но не самый простой.
А самый простой - отзывы. Идем и открываем отзывы к продукту вашего конкурента. Карты, форумы, сервисы отзывов и т.д. Собираете большую статистику и сразу понимаете не только боли, но и даже формулировки с которыми люди это пишут.
Как подключить свой телеграм-канал?

Каждый пользователь может настроить кросс-постинг из телеграм-канала на сайт. Это работает автоматически, таким образом можно привлечь дополнительную аудиторию, но убедитесь, что у вас канал, который публикует интересные и не рекламные посты - мы не хотим превращать сайт в витрину интернет-магазина. 

Для подключение: 

1. Нужно добавить бота в администраторы канала - @comuna_tg_bot (достаточно прав на чтение)

2. Зайдите в бота в настройки и выберите тематику вашего канала

3. Перешлите один пост в бота - он опубликуется на сайте, дальше все будет согласно выбранным вам настройкам (Автоматически или с согласованием)

U
Admin
Comuna 13 март
Новые блоки в редакторе: Ссылка на пост; Разделитель

Вот так можно вставить ссылку на другой пост на сайте в текст.

Как из идеи сделать стартап?
Мой стартапЕвгений Кирьянов
Как из идеи сделать стартап?

Хочу представить на широкий суд общественности свой продукт - это стратап-планер. Рассказ поделим на две части: первая - что такое планер; вторая - как мы его продаем и почему не…

Открыть материал

Этот блок удобен тем, что можно использовать встроенный поиск и буквально в пару кликов посмотреть, есть ли что релевантное на сайте. 

А вот такой разделитель поможет визуально отделить один блок текста от другого.