مدلهای زبانی همگی با دیتاهای زیادی که در سطح اینترنت وجود دارد آموزش میبینند. چند ماه پیش روزنامه نیویورک تایمز از شرکت Open AI شکایت کرد. شکایت از Open AI و مایکروسافت همچنان ادامه دارد و نیویورک تایمز و هفت روزنامه دیگر جزو شاکیان این پرونده هستند.
به جز روزنامهها افراد از مشاغل مختلفی مانند هنرمندان، خوانندگان، عکاسان، برنامه نویسان و … هم از این دو شرکت شکایت کردند.
بر اساس شکایتنامهای که میتوانید در Scribed بخوانید، این روزنامهها میگویند شرکت Open AI و همکارش از میلیونها خبری که خبرنگاران نوشتهاند استفاده کردند. این اخبار را برای آموزش مدل زبانی بزرگ استفاده میکنند. ناشران روزنامه سالانه مبلغ هنگفتی هزینه میکنند تا خبرنگاران در دنیای واقعی سراغ سوژههای حقیقی بروند و خبر تولید کنند. مدلهای زبانی بدون پرداخت هیچ هزینهای از اخبار استفاده میکند و سعی میکند کار دیگران را بدزدد.
این ناشران میگویند شرکتهای توسعه هوش مصنوعی از اخباری که حق کپیرایت دارند برای آموزش مدلشان استفاده میکنند. برای صحت گفتهشان هم مدارکی آورده اند. آنها از این دو مدل سوالاتی پرسیدند. به عنوان مثال از مدل GPT خواستند به آنها پنج پاراگراف ابتدایی خبری خاص در یک روزنامه را بنویسد. مدلها عینا همان محتوا را برای کاربر نمایان میکند.
این دو شرکت در پاسخ به شکایت از Open AI و مایکروسافت پاسخ دادند. چنین سوالاتی خیلی مغرضانه هستند و معمولا کاربران عادی سوالی این چنینی نمیپرسند. این روزنامهها فقط برای پیدا کردن یک مورد که آن هم تماما غیر قانونی نیست دست به هر کاری میزنند.
این هشت روزنامه میخواند حقوق پایمال شده نویسندگان و خبرنگاران را پس بگیرند. تا زمانی که چنین اتفاقی نیفتد و Open Ai و مایکروسافت به کار خود ادامه دهند این شکایت پابرجا است.