The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Открыт код Jina Embedding, модели для векторного представления смысла текста"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Открыт код Jina Embedding, модели для векторного представления смысла текста"  +/
Сообщение от opennews (??), 26-Окт-23, 12:26 
Компания Jina  открыла под лицензией Apache 2.0 модель машинного обучения для векторного представления текста - jina-embeddings-v2. Модель позволяет преобразовать произвольный текст, включающий до 8192 знаков, в небольшую последовательность вещественных чисел, образующих вектор, сопоставленный с исходным текстом и воспроизводящий его семантику (смысл). Jina Embedding стала первой открытой моделью машинного обучения, обладающей характеристиками, не уступающими пропретарной модели векторизации текста от проекта OpenAI (text-embedding-ada-002), также способной обрабатывать тексты, насчитывающие до 8192 токенов...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=59996

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (1), 26-Окт-23, 12:26   –7 +/
Я только не понимаю, почему так популярно повторять эту чушь в духе "не уступающими пропретарной модели", ведь, совершенно очевидно, это сразу позволяет сделать все нужные выводы об авторах и их поделке.
Ответить | Правка | Наверх | Cообщить модератору

4. Сообщение от Аноним (4), 26-Окт-23, 12:48   +/
Круто, а можно скормить текст этой новости? Что на выходе?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #6

5. Сообщение от Аноним (5), 26-Окт-23, 12:50   –11 +/
Йа, йа! Ничуть не хуже!* Аналогов нет!** Бесплатно!***


* Одной протестированной (по непонятным критериям) соперницы из десятков

** Среди таких же бесплатных.

*** До первого серьёзного коммерческого предложения

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #16

6. Сообщение от Аноним (6), 26-Окт-23, 12:50   +3 +/
на выходе будет 4739427419879182482756384539874569234
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #9

7. Сообщение от Аноним (9), 26-Окт-23, 12:51   +/
>под лицензией Apache 2.0

В репозиториях нет файла лицензии.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #19

9. Сообщение от Аноним (9), 26-Окт-23, 12:55   +4 +/
Не верю. Модель выводит не одно десятичное число, а вектор float32.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #14

11. Сообщение от 12yoexpert (ok), 26-Окт-23, 12:56   +4 +/
> (базовая - 0.27 ГБ и сокращённая - 0.07 ГБ)

а в петабайтах будет казаться ещё меньше! вам бы маркетологов на завод отправить

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #17

14. Сообщение от Аноним (6), 26-Окт-23, 13:02   +4 +/
да, это вектор, просто я весь вектор привел в int128.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #47

16. Сообщение от Аноньимъ (ok), 26-Окт-23, 13:07   +19 +/
Ты чего рвёшься то на ровном месте?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #21

17. Сообщение от Аноньимъ (ok), 26-Окт-23, 13:11   –1 +/
Базовая 270000 KB и сокращённая 70000 КБ.
Можно на микроконтроллерах крутить.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11 Ответы: #18

18. Сообщение от 12yoexpert (ok), 26-Окт-23, 13:20   +/
я для базовой 2319282339.84 бит насчитал, можно даже в столбик обработать, микроконтроллеры избыточны
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #25

19. Сообщение от Аноним (19), 26-Окт-23, 13:20   +/
Достаточно упоминания.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

20. Сообщение от Аноним (20), 26-Окт-23, 13:24   +/
А смысл?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #23, #39

21. Сообщение от 12yoexpert (ok), 26-Окт-23, 13:29   +2 +/
это плато
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

23. Сообщение от Аноним (19), 26-Окт-23, 13:35   +/
Смысл станет ясным к завершению проекта. Сейчас можно лишь предполагать, что результатом будет иск на $75 млн. https://www.cnews.ru/news/top/2023-10-23_muzykalnaya_otrasl_...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20 Ответы: #24, #35, #40

24. Сообщение от Аноним (24), 26-Окт-23, 13:49   –1 +/
Почему на Гугл иск не подали, ведь у него в индексе весь интернет?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23 Ответы: #36

25. Сообщение от _hide_ (ok), 26-Окт-23, 14:00   +2 +/
Этот человек еще со школы не понимал шутку про 1,5 землекопа )))
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #18 Ответы: #27, #53

27. Сообщение от 12yoexpert (ok), 26-Окт-23, 14:16   –3 +/
так ты бы объяснил, а то мы все тупые
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25

28. Сообщение от sena (ok), 26-Окт-23, 14:21   +5 +/
И наоборот можно будет? Типа задал вектор 42, и оно тебе сгенерировало текст о смысле жизни. Добавил к вектору ещё 0.13 и оно модифицировало смысл в сторону бессмыслености жизни и т.п.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #34, #51, #58, #65

29. Сообщение от Аноним (29), 26-Окт-23, 14:23   +/
Не раскрыта тема размерности векторного пространства.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #32, #46

32. Сообщение от Аноним (32), 26-Окт-23, 15:48   +/
768
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29 Ответы: #41

34. Сообщение от Аноним (-), 26-Окт-23, 15:57   –2 +/
Ты выныриваешь раз в три года чтобы написать комментарий? Похвально чо.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28

35. Сообщение от Аноним (-), 26-Окт-23, 16:00   +/
Иска не будет. они будут Свободный текст превращать в ветор.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

36. Сообщение от Аноним (-), 26-Окт-23, 16:01   +1 +/
Ты не понял смысл написанного. Иди и прочти новость 10 раз.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24

38. Сообщение от Аноним (38), 26-Окт-23, 16:13   +/
Не смысла, а поля интерпретаций из текста в текст. Хотя, в современной семантике смысл трактуется именно, как отображение одного текста в другой.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #43

39. Сообщение от YetAnotherOnanym (ok), 26-Окт-23, 16:15   –1 +/
Например, к спамобойке прикрутить. Тогда админ задаёт некий общий смысл (например, "несите ваши денежки инвестировать вместе с Тинькофф"), а сабж накидывет парочку баллов в оценку, если смысл текста близок к заданному.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20 Ответы: #62

40. Сообщение от Аноним (40), 26-Окт-23, 16:35   +/
Это ещё ничего. Вот когда кто-то догадается натренировать нейросетку на юридических и судебных материалах стран с прецедентным правом, и стоящую в США миллионы долларов работу целой оравы адвокатов и юристов будет делать с таким же качеством какой-нибудь LawyerGPT за два доллара, вот тогда будет эпичное веселье.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23 Ответы: #42, #55

41. Сообщение от 48 (?), 26-Окт-23, 17:22   +/
1024
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #32

42. Сообщение от Аноним (42), 26-Окт-23, 17:26   +1 +/
лоеры научаться эксплуатировать несовершенства модели и будут обдирать всех пользователей оных как липки.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #40

43. Сообщение от Аноним (43), 26-Окт-23, 18:18   +/
А как работает смысл не относительно чего-то? И разве относительно чего-то мои чувства и ощущения?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #38 Ответы: #44

44. Сообщение от коньюктив ит (?), 26-Окт-23, 18:49   –2 +/
Ваши чувства и ощущения - это иллюзия порождаемая всего лишь несколькими тысячами (десятками тысяч в редких случаях) паттернов выстраиваемых в цепочки генератором псевдослучайных чисел.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43

45. Сообщение от Аноним (45), 26-Окт-23, 19:37   +/
Тексты для тренировки подбираются запатентованным образом или достаточно взять все существующие работы по схоластике, астрологии и марксизму-ленинизму?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #48, #60

46. Сообщение от Аноним (46), 26-Окт-23, 19:40   –1 +/
Речь не о тех векторах.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

47. Сообщение от Аноним (47), 26-Окт-23, 19:59   +/
128 / 32 = 4. Ты хочешь сказать, что 4мя флоатами любой текст описывается?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #49

48. Сообщение от Аноним (47), 26-Окт-23, 20:02   +/
Предполагаю, что для отбора текстов использовалась другая LLM с текстовым запросом.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #45

49. Сообщение от Аноним (49), 26-Окт-23, 20:05   +/
А доку открыть никак? Там 512-ти мерный вектор. Еще можно 1024-мерный. В зависимости от модели и заданных параметров.. Но речь про 512 флоатов по 4 байта.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #47

51. Сообщение от Cradle (?), 26-Окт-23, 21:10   +/
"Правитель наблюдает мир и знает,
Что путь управления един.
Но единое всегда превращается в двойственность явлений,
А все явления имеют троичную структуру,
В которой соединяется идеальное, материальное и реальное.
А вот из троичности образуется множественность всех событий и предметов..."
дао-де цзин, глава 42 (из 81)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28

52. Сообщение от Аноним (52), 26-Окт-23, 22:25   +4 +/
Векторный гипертекстовый фидонет всё ближе
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #57

53. Сообщение от Аноним (53), 27-Окт-23, 05:27   +1 +/
Шутку про землекопа может понять тот, кто вырос на советских мультиках.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25

54. Сообщение от test (??), 27-Окт-23, 08:00   +/
А есть ссылка на пример ? Текст + Картинка.
Ответить | Правка | Наверх | Cообщить модератору

55. Сообщение от Аноним (19), 27-Окт-23, 11:43   +/
Не думаю. Поиск в сети уже отравлен. ИИ уже в коллапсе.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #40

56. Сообщение от Аноним (-), 27-Окт-23, 12:22   +/
> позволяет преобразовать произвольный текст, включающий до 8192 знаков

Токенов, а не знаков.

Ответить | Правка | Наверх | Cообщить модератору

57. Сообщение от michael516 (?), 27-Окт-23, 15:13   +1 +/
Шутка, понятная не только лишь всем
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #52

58. Сообщение от Твой сосед с вайфаем (?), 27-Окт-23, 23:22   +/
Ты только что изобрел ChatGPT, только циферки вводятся неявно.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28

60. Сообщение от Neon (??), 30-Окт-23, 14:46   +/
Да весь рекламный бред от маркетологов скормить бедному AI и посмотреть, что с ним будет.)))
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #45

62. Сообщение от Аноним (62), 01-Ноя-23, 04:29   +/
Угадай сколько в этом тексте латинских символов?
>неcитe вaши дeнeжки Nнвeстирoвaть вмeстe с 7иньк0фф
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #39 Ответы: #63

63. Сообщение от YetAnotherOnanym (ok), 01-Ноя-23, 11:07   +/
Делов-то, для каждой буквы кириллицы составить список омоглифов и перед обработкой проводить нормализацию текста.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #62

64. Сообщение от Аноним (64), 01-Ноя-23, 16:26   +/
ЛСДУЗ и ЙФЯУ9 в ней сгенерили?
Ответить | Правка | Наверх | Cообщить модератору

65. Сообщение от bjaka.max (?), 24-Ноя-23, 10:37   +/
Тут интереснее скорее можно ли, взял другую сетку натренированную на русском языке, подсунул ей векторы полученные в английской и у тебя перевод? Не нужно тренировать отдельно сетку переводящую с монгольского на японский, а взял сетку японскую и сетку монгольскую и ага.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру